আমি মনে করি মেশিন লার্নিং বা পরামিতি অনুমানের একটি প্রাথমিক অনুমান হ'ল অদেখা তথ্যগুলি প্রশিক্ষণ সেট হিসাবে একই বিতরণ থেকে আসে। তবে কিছু ব্যবহারিক ক্ষেত্রে পরীক্ষার সেট বিতরণ প্রশিক্ষণ সেট থেকে প্রায় আলাদা হবে।
বৃহত্তর স্তরের মাল্টি-শ্রেণিবদ্ধকরণ সমস্যার জন্য বলুন যা পণ্য বিবরণকে প্রায় 17,000 শ্রেণিতে শ্রেণিবদ্ধ করার চেষ্টা করে। প্রশিক্ষণ গোষ্ঠীতে উচ্চ স্তরের শ্রেণিবদ্ধ প্রিয়র থাকবে যেমন কিছু শ্রেণির অনেক প্রশিক্ষণের উদাহরণ থাকতে পারে তবে কারও কারও কাছে কয়েকটি থাকে। মনে করুন আমাদের কোনও ক্লায়েন্টের অজানা ক্লাস লেবেল সহ একটি পরীক্ষা সেট দেওয়া আছে। আমরা পরীক্ষার প্রতিটি পণ্যকে প্রশিক্ষণ সংস্থায় প্রশিক্ষিত শ্রেণিবদ্ধ ব্যবহার করে 17,000 শ্রেণীর মধ্যে একটিতে শ্রেণিবদ্ধ করার চেষ্টা করি। পরীক্ষার সেটটিতে সম্ভবত শ্রেণিবিন্যাসের স্কিল বিতরণ হত তবে সম্ভবত প্রশিক্ষণের সেট থেকে খুব আলাদা, যেহেতু তারা বিভিন্ন ব্যবসায়ের সাথে সম্পর্কিত হতে পারে। দুটি শ্রেণির বিতরণ যদি খুব আলাদা হয় তবে প্রশিক্ষিত শ্রেণিবদ্ধকারী পরীক্ষার সেটে ভাল কাজ করতে পারে না। নায়েভ বেয়েস শ্রেণিবদ্ধের সাথে এটি বিশেষভাবে সুস্পষ্ট বলে মনে হয়।
প্রশিক্ষণ সেট এবং সম্ভাব্য শ্রেণিবদ্ধের জন্য একটি নির্দিষ্ট প্রদত্ত পরীক্ষার সেটের মধ্যে পার্থক্যটি পরিচালনা করার কোনও নীতিগত উপায় আছে কি? শুনেছি যে "ট্রান্সডেস্টিভ এসভিএম" এসভিএম-তে একই কাজ করে। কোনও শ্রেণিবদ্ধকারী শেখার জন্য কি একই জাতীয় কৌশল রয়েছে যা নির্দিষ্ট প্রদত্ত পরীক্ষার সেটটিতে সেরা সম্পাদন করে? তারপরে আমরা এই পরীক্ষামূলক দৃশ্যে অনুমোদিত হিসাবে দেওয়া বিভিন্ন পরীক্ষার সেটগুলির জন্য শ্রেণিবদ্ধটিকে পুনরায় প্রশিক্ষণ করতে পারি।