এটি মজার বিষয় যে সর্বাধিক উত্সাহিত উত্তরটি সত্যই প্রশ্নের উত্তর দেয় না :) তাই আমি ভেবেছিলাম এটিকে আরও কিছু তত্ত্ব দিয়ে ব্যাক করা ভাল হবে - বেশিরভাগই "ডেটা মাইনিং: প্রাকটিকাল মেশিন লার্নিং সরঞ্জামসমূহ এবং কৌশলগুলি" এবং টম মিশেল থেকে নেওয়া "মেশিন লার্নিং" ।
ভূমিকা।
সুতরাং আমাদের একটি শ্রেণিবদ্ধ এবং একটি সীমিত ডেটাসেট রয়েছে এবং নির্দিষ্ট পরিমাণে ডেটা অবশ্যই প্রশিক্ষণ সংস্থায় যেতে হবে এবং বাকীটি পরীক্ষার জন্য ব্যবহৃত হয় (যদি প্রয়োজন হয় তবে বৈধতার জন্য তৃতীয় সাবসেট ব্যবহার করা হয়)।
দ্বিধাটি আমাদের মুখোমুখি হ'ল: একটি ভাল শ্রেণিবদ্ধ খুঁজে পেতে, "প্রশিক্ষণ উপসেট "টি যতটা সম্ভব বড় হওয়া উচিত, তবে একটি ভাল ত্রুটির অনুমান করার জন্য" পরীক্ষার উপসেট "যথাসম্ভব বড় হওয়া উচিত - তবে উভয় উপসর্গটি নেওয়া হয়েছে একই পুল
এটা সুস্পষ্ট যে প্রশিক্ষণের সেটটি পরীক্ষার সেটের চেয়ে বড় হওয়া উচিত - অর্থাত্ বিভাজনটি 1: 1 হওয়া উচিত নয় (মূল লক্ষ্য প্রশিক্ষণ দেওয়া , পরীক্ষা করা নয় ) - তবে স্পষ্টটি কোথায় হওয়া উচিত তা পরিষ্কার নয়।
হোল্ডআউট পদ্ধতি
"সুপারসেট" সাবটেটে বিভক্ত করার পদ্ধতিটিকে হোল্ডআউট পদ্ধতি বলে । দ্রষ্টব্য যে আপনি সহজেই দুর্ভাগ্যজনক হতে পারেন এবং একটি নির্দিষ্ট শ্রেণীর উদাহরণগুলি যে কোনও উপ-অনুচ্ছেদে হারিয়ে যেতে পারে (বা উপস্থাপিত) হতে পারে, যার মাধ্যমে সম্বোধন করা যেতে পারে
- এলোমেলো নমুনা, যা গ্যারান্টি দেয় যে প্রতিটি বর্গ সমস্ত ডেটা উপগ্রহে যথাযথভাবে উপস্থাপিত হয় - পদ্ধতিটিকে স্ট্রেটি-এড হোল্ডআউট বলে
- এর উপরে পুনরাবৃত্তি প্রশিক্ষণ-পরীক্ষার-বৈধতা প্রক্রিয়া সহ এলোমেলো নমুনা - যাকে পুনরাবৃত্তি স্তরিত হোল্ডআউট বলে
একটি একক (অপরিবর্তিত) হোল্ডআউট পদ্ধতিতে, আপনি টেস্টিং এবং প্রশিক্ষণের ডেটাগুলির ভূমিকা অদলবদল করতে এবং দুটি ফলাফলের গড় বিবেচনা করতে পারেন তবে প্রশিক্ষণ এবং পরীক্ষার সেটগুলির মধ্যে 1: 1 বিভাজকটি কেবল এটি গ্রহণযোগ্য (যা ভূমিকা দেখুন) )। তবে এটি একটি ধারণা দেয় এবং একটি উন্নত পদ্ধতি ( ক্রস-বৈধকরণ পরিবর্তে ব্যবহৃত হয়) - নীচে দেখুন!
ক্রস বৈধতা.
ক্রস-বৈধকরণের ক্ষেত্রে, আপনি একটি ed xed সংখ্যক ভাঁজ (ডেটার পার্টিশন) সম্পর্কে সিদ্ধান্ত নেন। যদি আমরা তিনটি ভাঁজ ব্যবহার করি তবে ডেটাটি তিনটি সমান পার্টিশনে বিভক্ত হয় এবং
- আমরা প্রশিক্ষণের জন্য 2/3 এবং পরীক্ষার জন্য 1/3 ব্যবহার করি
- এবং প্রক্রিয়াটি তিনবার পুনরাবৃত্তি করুন যাতে শেষ পর্যন্ত, প্রতিটি উদাহরণ পরীক্ষার জন্য ঠিক একবার ব্যবহার করা হয়েছে।
এটিকে থ্রিফোল্ড ক্রস-বৈধকরণ বলা হয় , এবং যদি স্ট্র্যাটিসেশনটি পাশাপাশি গ্রহণ করা হয় (যা এটি প্রায়শই সত্য হয়) তবে এটি স্ট্রেটেড থ্রিফোল্ড ক্রস-বৈধতা বলে ।
কিন্তু, নিম্ন এবং দেখ দেখ, মানক উপায় না 1/3 বিভক্ত: 2/3। "ডেটা মাইনিং: প্রাকটিক্যাল মেশিন লার্নিং সরঞ্জাম এবং কৌশল" উদ্ধৃত করে ,
মানক উপায় [...] স্ট্রেটি এড 10-ভাঁজ ক্রস-বৈধকরণ use ডেটাটি এলোমেলোভাবে 10 অংশে বিভক্ত করা হয়েছে যেখানে ক্লাসটি পুরো ডেটাসেটের মতো প্রায় একই অনুপাতে উপস্থাপিত হয়। প্রতিটি অংশ পরিবর্তে অনুষ্ঠিত হয় এবং শিখা পরিকল্পনাটি নয়-দশমাংশে প্রশিক্ষিত হয়; তারপরে তার ত্রুটির হারটি হোল্ডআউট সেটটিতে গণনা করা হয়। সুতরাং শেখার পদ্ধতিটি বিভিন্ন প্রশিক্ষণ সেটগুলিতে মোট 10 বার কার্যকর করা হয় (যার প্রত্যেকটিতে প্রচলিত রয়েছে)। পরিশেষে, সামগ্রিক ত্রুটির অনুমানের জন্য 10 টি ত্রুটি অনুমানের গড় হয়।
কেন 10? কারণ "বিভিন্ন শিক্ষা প্রণালীর সাথে অসংখ্য ডেটাসেট, উপর ..Extensive পরীক্ষা দেখানো হয়েছে 10 ভাঁজ সঠিক সংখ্যার ত্রুটির সেরা অনুমান পেতে সম্পর্কে, এবং কিছু তাত্ত্বিক প্রমাণ যে পিঠের এই পর্যন্ত .." আমি আশ্রয়স্থল কোন বিস্তৃত পরীক্ষা এবং তাত্ত্বিক প্রমাণ তারা বোঝাতে পারেন নি তবে এটি আরও খনন করার জন্য একটি ভাল সূচনা বলে মনে হচ্ছে - আপনি যদি চান -
তারা মূলত শুধু বলে
যদিও এই যুক্তিগুলি কোনওভাবেই চূড়ান্ত নয়, এবং মেশিন লার্নিং এবং ডেটা মাইনিংয়ের চেনাশোনাগুলিতে মূল্যায়নের জন্য সর্বোত্তম স্কিম কী তা নিয়ে তর্ক বিতর্ক অব্যাহত রয়েছে, তবে 10 গুণ দ্বিগুণ ক্রস-বৈধতা ব্যবহারিক দিক থেকে মানক পদ্ধতিতে পরিণত হয়েছে। [...] তদ্ব্যতীত, সঠিক সংখ্যা 10: 5-ভাঁজ বা 20-গুণ ক্রস-বৈধকরণ প্রায় ভাল হওয়ার সম্ভাবনা সম্পর্কে কোনও জাদু নেই।
বুটস্ট্র্যাপ, এবং - অবশেষে! - মূল প্রশ্নের উত্তর।
তবে আমরা এখনও 2/3: 1/3 কেন প্রায়শই সুপারিশ করা হয় তা সম্পর্কে উত্তরে পৌঁছায়নি। আমার গ্রহণযোগ্যতা হ'ল এটি বুটস্ট্র্যাপ পদ্ধতি থেকে উত্তরাধিকার সূত্রে প্রাপ্ত ।
এটি প্রতিস্থাপনের সাথে স্যাম্পলিংয়ের উপর ভিত্তি করে। পূর্বে, আমরা "গ্র্যান্ড সেট" থেকে নমুনাটি সাবসেটগুলির মধ্যে একটিতে রেখেছিলাম। বুটস্ট্র্যাপিং আলাদা এবং একটি নমুনা সহজেই উভয় প্রশিক্ষণ এবং পরীক্ষার সেটগুলিতে উপস্থিত হতে পারে।
আসুন আমরা একটি নির্দিষ্ট দৃশ্যের দিকে নজর রাখি যেখানে আমরা এন এর উদাহরণগুলির সাথে একটি ডেটাসেট ডি 1 নিই এবং প্রতিস্থাপনের সাথে এন বার এটি নমুনা করি যাতে এন দৃষ্টান্তের অন্য একটি ডেটাসেট ডি 2 পাওয়া যায় ।
এখন সরুভাবে দেখুন।
যেহেতু ডি 2-তে কিছু উপাদান (প্রায় অবশ্যই) পুনরাবৃত্তি হবে, মূল ডেটাসেটে কিছু উদাহরণ থাকতে হবে যা চয়ন করা হয়নি: আমরা এগুলি পরীক্ষার দৃষ্টান্ত হিসাবে ব্যবহার করব।
কোন সুযোগটি কী যে কোনও নির্দিষ্ট উদাহরণটি ডি 2-তে নেওয়া হয়নি ? প্রতিটি গ্রহণের বাছাইয়ের সম্ভাবনাটি 1 / n তাই বিপরীত (1 - 1 / n) ।
যখন আমরা এই সম্ভাবনাগুলি একসাথে গুণ করি তখন এটি (1 - 1 / n) ^ n যা ই ^ -1 যা প্রায় 0.3। এর অর্থ আমাদের পরীক্ষার সেটটি প্রায় ২/৩ হবে এবং প্রশিক্ষণের সেটটি প্রায় ২/৩ অংশ হবে।
আমার ধারণা, এই কারণেই এটি 1/3: 2/3 বিভাজনটি ব্যবহার করার পরামর্শ দেওয়া হয়েছে: এই অনুপাতটি বুটস্ট্র্যাপিং অনুমান পদ্ধতি থেকে নেওয়া হয়েছে।
এটিকে গুটিয়ে রাখা।
আমি ডেটা মাইনিং বইয়ের একটি উদ্ধৃতি দিয়ে শেষ করতে চাই (যা আমি প্রমাণ করতে পারি না তবে সঠিক অনুমান করতে পারি না) যেখানে তারা সাধারণত 10-গুণ ক্রস-বৈধতা পছন্দ করার পরামর্শ দেয়:
বুটস্ট্র্যাপ পদ্ধতি খুব ছোট ডেটাসেটের জন্য ত্রুটি অনুমানের সর্বোত্তম উপায় হতে পারে। তবে, লেভ-ওয়ান-আউট ক্রস-বৈধকরণের মতো, এর অসুবিধাগুলি রয়েছে যা একটি বিশেষ, আর্টিকাল-সিয়াল পরিস্থিতি বিবেচনা করে উদাহরণস্বরূপ বলা যেতে পারে [...] পুরোপুরি দুটি বর্গ সহ একটি এলোমেলো ডেটাসেট। যেকোন ভবিষ্যদ্বাণীমূলক নিয়মের জন্য সত্য ত্রুটির হার 50% ut তবে প্রশিক্ষণ সেটটি মুখস্থ করে এমন একটি স্কিম 100% এর নিখুঁত পুনর্নির্মাণের স্কোর দেবে যাতে ইন্ট্রেনিং উদাহরণগুলি = 0 হয় এবং 0.632 বুটস্ট্র্যাপ এটিকে 0.368 থেকে ওজনের সাথে মিশিয়ে দেয় will কেবলমাত্র 31.6% (0.632 ¥ 50% + 0.368 ¥ 0%) এর সামগ্রিক ত্রুটি হার দিন, যা বিভ্রান্তিকরভাবে আশাবাদী।