আমি নিম্নলিখিত প্রকাশটি আগে শুনেছি:
"পরিসংখ্যানের মধ্যে সমস্ত অপকর্মের মূলে অপটিমাইজেশন"।
উদাহরণস্বরূপ, এই থ্রেডের শীর্ষস্থানীয় উত্তরটি মডেল নির্বাচনের সময় খুব আক্রমণাত্মকভাবে অনুকূল হওয়ার ঝুঁকির প্রসঙ্গে সেই বিবৃতি দেয়।
আমার প্রথম প্রশ্নটি নিম্নরূপ: এই উক্তিটি বিশেষত কারও জন্যই দায়ী? (যেমন পরিসংখ্যান সাহিত্যে)
আমি যা বুঝতে পারি তা থেকে বিবৃতিটি ওভারফিটিংয়ের ঝুঁকিগুলিকে বোঝায়। Ditionতিহ্যগত জ্ঞান বলবেন যে সঠিক ক্রস বৈধতা ইতিমধ্যে এই সমস্যার বিরুদ্ধে লড়াই করে, তবে দেখে মনে হচ্ছে যে এই সমস্যার চেয়ে আরও কিছু আছে।
কঠোর ক্রস বৈধতা প্রোটোকল (উদাহরণস্বরূপ 100 নেস্টেড 10-ভাঁজ সিভি) মেনে চলার পরেও পরিসংখ্যানবিদ এবং এমএল অনুশীলনকারীরা তাদের মডেলগুলিকে অতিরিক্ত অনুকূলকরণ সম্পর্কে সতর্ক হওয়া উচিত? যদি তা হয় তবে "সেরা" মডেলটির সন্ধান বন্ধ করার জন্য আমরা কীভাবে জানব?