আমি পরিসংখ্যান শেখার বইয়ের উপাদানগুলির সেরা উপসেট নির্বাচন সম্পর্কে পড়ছি। যদি আমার কাছে 3 পূর্বাভাস থাকে , আমি উপসেট তৈরি করব:2 3 = 8
- কোন ভবিষ্যদ্বাণীকারী সহ সাবসেট
- পূর্বাভাসকারী সাথে সাবসেট
- পূর্বাভাসকারী সাথে সাবসেট
- সাথে সাবসেট
- পূর্বাভাসকারীদের সাথে সাবসেট
- সহ সাবসেট
- পূর্বাভাসকারীদের সাথে সাবসেট
- সহ সাবসেট
তারপরে আমি সেরা মডেলগুলি বেছে নেওয়ার জন্য এই সমস্ত মডেলকে পরীক্ষার ডেটাতে পরীক্ষা করি।
এখন আমার প্রশ্ন হল লাসোর তুলনায় সেরা সাবসেট নির্বাচন কেন অনুকূল নয়?
আমি যদি সর্বোত্তম উপসেট এবং লাসোর থ্রোহোল্ডিং ফাংশনগুলির সাথে তুলনা করি তবে আমি দেখতে পাচ্ছি যে সেরা উপসেটটি কয়েকটি সহগকে লসোর মতো শূন্যে সেট করে। তবে, অন্যান্য সহগ (অ-শূন্য নয়) এর অলস মানগুলি এখনও থাকবে, তারা উদ্বিগ্ন হবে। যেখানে লাসোতে কয়েকটি সহগের শূন্য হবে এবং অন্যদের (শূন্য নন) কিছুটা পক্ষপাতিত্ব থাকবে। নীচের চিত্রটি এটি আরও ভাল দেখায়:
ছবিটি থেকে সেরা সাবসেটের ক্ষেত্রে লাল রেখার অংশটি ধূসর রঙের উপর পড়ছে। অন্য অংশটি এক্স-অক্ষে রয়েছে যেখানে সহগের কয়েকটি শূন্য রয়েছে। ধূসর লাইন নিরপেক্ষ সমাধানগুলি সংজ্ঞায়িত করে। লাসোতে কিছু পক্ষপাত । দ্বারা প্রবর্তিত হয় । এই চিত্র থেকে আমি দেখতে পাচ্ছি যে সেরা উপসেটটি লাসোর চেয়ে ভাল! সেরা উপসেট ব্যবহারের অসুবিধাগুলি কী কী?