সম্ভবত সঠিকটির সংজ্ঞাটি ভ্যালেন্টের কারণে। এটি মেশিন লার্নিং কী তা গাণিতিকভাবে কঠোর সংজ্ঞা দেওয়া মানে।
আমাকে একটু দৌড় দাও। পিএসি 'হাইপোথিসিস' শব্দটি ব্যবহার করার সময়, বেশিরভাগ লোকেরা অনুমানের পরিবর্তে মডেল শব্দটি ব্যবহার করেন use পরিসংখ্যান সম্প্রদায়ের সম্মতিতে আমি মডেলটিকে পছন্দ করি তবে আমি উভয় ব্যবহার করার চেষ্টা করব। মেশিন লার্নিং কিছু ডেটা দিয়ে শুরু হয়, এবং কেউ এমন একটি অনুমান বা মডেল সন্ধান করতে চায় যা ইনপুটগুলিতে x i ফেরত y i বা খুব কাছের কিছু দেয়। আরও গুরুত্বপূর্ণভাবে দেওয়া নতুন ডেটা - এক্স মডেলটি সম্পর্কিত গণনা বা পূর্বাভাস দেবে(xi,yi)xiyix~ ।
প্রকৃতপক্ষে কেউ প্রদত্ত (প্রশিক্ষণ) ডেটা সম্পর্কে অনুমান করা কতটা সঠিক তা সম্পর্কে আগ্রহী নয়, এ ছাড়া এটি বিশ্বাস করা শক্ত যে কিছু তথ্য ব্যবহার করে তৈরি করা একটি মডেল সেই ডেটা সেটটিকে সঠিকভাবে প্রতিফলিত করবে না, তবে যে কোনও ভবিষ্যতের ক্ষেত্রে সঠিক হবে ডেটা সেট। দুটি গুরুত্বপূর্ণ সতর্কতা হ'ল 100% যথাযথতার সাথে নতুন ডেটা সম্পর্কে ভবিষ্যদ্বাণী করতে পারে না এবং এমন একটি সম্ভাবনাও রয়েছে যে তথ্য উদাহরণগুলি দেখেছিল যে কোনও গুরুত্বপূর্ণ বিষয়টি মিস করেছে। খেলনার উদাহরণটি হ'ল যদি আমি আপনাকে 'ডেটা' দিই তবে 1,2,3,4 জন 'ভবিষ্যদ্বাণী' করবে যে 5 পরবর্তী নম্বর হবে। আপনি যদি অনুক্রমের পরবর্তী নম্বরটি লোকদের জিজ্ঞাসা করে এটি পরীক্ষা করে থাকেন, তবে বেশিরভাগ লোক 5 বলবে Someone কেউপারেy~
যদিও 1,000,000 বলুন। আপনি যদি সিক্যুয়েন্সটি 1,2,3, ... 999,999 দিয়ে থাকেন তবে একজন নিশ্চিত হন যে পরবর্তী সংখ্যাটি 1,000,000 1,000 তবে পরের সংখ্যাটি 999,999.5 বা 5 হতে পারে point মূল বিষয়টি হ'ল যে কেউ যত বেশি ডেটা দেখবে তত বেশি নিশ্চিত হতে পারে যে কোনও একটি সঠিক মডেল তৈরি করেছে তবে কোনওটি কখনই একেবারে নিশ্চিত হতে পারে না।
সম্ভবত প্রায় সঠিক সংজ্ঞাটি এই ধারণাটির গাণিতিকভাবে সুনির্দিষ্ট সংস্করণ দেয়। প্রদত্ত ডেটা আউটপুট y i এবং এক শ্রেণির মডেল f θ যা অনুমানকে গঠন করে যে কেউ 2 টি প্রশ্ন জিজ্ঞাসা করতে পারে। আমরা আপনার ডেটা ব্যবহার করতে পারি একটি নির্দিষ্ট অনুমান এটি চ Θxi,1≤i≤myifθfΘনতুন মানগুলির পূর্বাভাস দেওয়ার ক্ষেত্রে এটি সত্যই সঠিক হতে পারে? আরও কতটা সম্ভব যে মডেলটি আমরা আশা করি ঠিক ততটাই নির্ভুল? এটি হ'ল আমরা এমন কোনও মডেলকে প্রশিক্ষণ দিতে পারি যা খুব সঠিক হওয়ার সম্ভাবনা খুব বেশি। শন ইস্টার এর উত্তরে যেমন আমরা বলেছি আমরা একটি 'এপসিলন, ডেল্টা' যুক্তিটি করতে পারি তবে হাইপোথেসিসের এক শ্রেণীর (মডেলগুলির শ্রেণি) পিএসি। যে আমরা সম্ভাব্যতা সঙ্গে বলতে পারেন আমাদের মডেল চ Θ মধ্যে থেকে সঠিক ε । নির্দিষ্ট জোড় ( δ , ϵ ) কে সন্তুষ্ট করতে একজনকে কতটা ডেটা দেখতে হবে তা নির্ভর করে আসল ( δ , ϵ ) এর উপরp>1−δfΘϵ(δ,ϵ)(δ,ϵ) অনুমানের প্রদত্ত শ্রেণিটি কতটা জটিল।
আরো সঠিকভাবে, অনুমানের একটি বর্গ বা মডেল চ θ পিএসি হলে কোনো জুড়ি জন্য ( ε , δ ) সঙ্গে 0 < ε , δ , < .5 একটি নির্দিষ্ট মডেল চ Θ যেমন যে কোন নতুন তথ্য ~ X , ~ Y , এই মডেল E r r ( f Θ ( ˜ x ) , ˜ y ) < satis কে সম্ভাব্যতা p > দিয়ে সন্তুষ্ট করবেHfθ(ϵ,δ)0<ϵ,δ,<.5fΘx~,y~Err(fΘ(x~),y~)<ϵ যদি মডেলটি কমপক্ষে m = মি ( δ , ϵ , এইচ ) প্রশিক্ষণের উদাহরণসহ নির্বাচিত (প্রশিক্ষিত) হয় । এখানে ভুল মনোনীত ক্ষতি ফাংশন যা সাধারণত হয় ( চ Θ ( ~ X ) - ~ Y ) 2 ।p>1−δm=m(δ,ϵ,H)(fΘ(x~)−y~)2
(δ,ϵ)