এটি ইতিমধ্যে বেশ পুরানো প্রশ্ন তবে আমি অনুভব করছি যে ইতিমধ্যে এখানে বেশিরভাগ উত্তর বেশ পুরানো (এবং যা সঠিক উত্তর হিসাবে যাচাই করা হয়েছে তা সরল ভুল ইমো)।
প্রথমত, পূর্বাভাসের ভাল পারফরম্যান্স পাওয়ার ক্ষেত্রে এটি সর্বজনীনভাবে সত্য নয় যে লাসো সর্বদা পদক্ষেপের চেয়ে ভাল। "সেরা সাবসেট নির্বাচনের বর্ধিত তুলনা, ফরোয়ার্ড স্টেপওয়াইস সিলেকশন এবং লাসো" পত্রিকাটি হাস্টি এট আল (2017) ফরওয়ার্ড স্টেপওয়াইজ, লাসো এবং কিছু ল্যাসো ভেরিয়েন্টের পাশাপাশি রিল্যাক্সড ল্যাসো পাশাপাশি সেরা সাবসেটের বিস্তৃত তুলনা সরবরাহ করে এবং তারা দেখান যে ধাপের দিকটি কখনও কখনও লাসোর চেয়ে ভাল। যদিও লাসোর এক বৈকল্পিক - রিল্যাক্সড লাসো - এমনটি ছিল যা পরিস্থিতির বিস্তৃত পরিসরে সর্বোচ্চ মডেলের পূর্বাভাসের নির্ভুলতা তৈরি করেছিল produced যার সম্পর্কে উপসংহারটি সবচেয়ে ভাল যা আপনি সবচেয়ে ভাল বিবেচনা করছেন তার উপর অনেক বেশি নির্ভর করে যেমন, এটি সর্বাধিক পূর্বাভাসের নির্ভুলতা হবে বা কয়েকটি ভুয়া পজিটিভ ভেরিয়েবল নির্বাচন করা উচিত।
স্পারস লার্নিং পদ্ধতির একটি পুরো চিড়িয়াখানা রয়েছে যদিও এর বেশিরভাগই লাসোর চেয়ে ভাল। যেমন Meinhausen এর আছে নিরুদ্বেগ Lasso , অভিযোজিত Lasso এবং Scad এবং MCP শাস্তি রিগ্রেশন বাস্তবায়িত যেমন ncvreg
প্যাকেজ, যা সব মান Lasso কম পক্ষপাত আছে এবং তাই preferrable হয়। তদ্ব্যতীত, আপনি যদি ভবিষ্যদ্বাণীমূলক পারফরম্যান্সের সাথে পরম স্পার্সেট সমাধানে আগ্রহী হন তবে এল0 দন্ডিত রিগ্রেশন (ওরফে সেরা উপসেট, যেমন ল্যাএসএও-র গুণফলগুলির পরম মানের যোগফলের বিপরীতে ননজারো সহগের এনআরআর এর শাস্তির উপর ভিত্তি করে) লাসোর চেয়ে ভাল, উদাহরণস্বরূপ l0ara
প্যাকেজটি যা পুনরুক্তি অভিযোজক রিজ পদ্ধতিটি ব্যবহার করে L0 দণ্ডিত জিএলএমগুলির সমান করে, এবং যা লাসো থেকে পৃথক খুব উচ্চতর কলিনারি ভেরিয়েবল, এবং L0Learn
প্যাকেজ , যা L0 জরিমানা সংশোধন মডেল ফিট করতে পারে স্থানাঙ্ক নিয়ন্ত্রিত করার জন্য একটি এল 2 জরিমানার সাথে সংমিশ্রণে সমন্বিত বংশদ্ভুত ব্যবহার করে ফিট করতে পারে।
সুতরাং আপনার মূল প্রশ্নে ফিরে আসতে: কেন ভেরিয়েবল নির্বাচনের জন্য লাসো ব্যবহার করবেন না? :
(1) কারণ সহগগুলি উচ্চ পক্ষপাতদুষ্ট হবে, যা শিথিল করা লাসো, এমসিপি এবং এসসিএডি দন্ডিত দমন-পীড়নের ক্ষেত্রে উন্নতি করা হয়েছে এবং এল0 জরিমানাযুক্ত রিগ্রেশনটিতে সম্পূর্ণরূপে সমাধান করা হয়েছে (যার একটি সম্পূর্ণ ওরাকল সম্পত্তি রয়েছে, অর্থাত্ এটি কার্যকারিতা পরিবর্তনশীল এবং পুনরায় উভয়ই বেছে নিতে পারে) নিরপেক্ষ সহগগুলি, পি> এন ক্ষেত্রেও)
(2) কারণ এটি L0 শাস্তি রিগ্রেশন চেয়েও অনেক বেশি মিথ্যা positives উত্পাদন করতে থাকে (আমার পরীক্ষা l0ara
অতঃপর যা উত্তম সঞ্চালিত, অর্থাত্ পুনরাবৃত্ত অভিযোজিত সেতুবন্ধ, দ্বারা অনুসরণ L0Learn
)
(3) কারণ এটি কলিনারি ভেরিয়েবলগুলি ভালভাবে মোকাবেলা করতে পারে না (এটি মূলত এলোমেলোভাবে কলিনারি ভেরিয়েবলগুলির মধ্যে একটি নির্বাচন করবে) - পুনরুক্তি অভিযোজক রিজ / l0ara
এবং L0L2 জরিমানাগুলি এটির সাথে व्यवहार করার L0Learn
ক্ষেত্রে আরও ভাল।
অবশ্যই, সাধারণভাবে, আপনার পূর্বাভাসের সর্বোত্তম পারফরম্যান্স পেতে আপনার নিয়মিতকরণ পরামিতি (টি) টিউন করতে আপনার এখনও ক্রস বৈধতা ব্যবহার করতে হবে, তবে এটি কোনও সমস্যা নয়। এমনকি আপনি আপনার প্যারামিটারগুলিতে উচ্চ মাত্রিক অনুমান করতে পারেন এবং ননপ্যারমেট্রিক বুটস্ট্র্যাপিংয়ের মাধ্যমে পছন্দ করলে আপনার সহগের উপর 95% আত্মবিশ্বাসের ব্যবধান গণনা করতে পারেন (এমনকি প্রতিটি বুটস্ট্র্যাপড ডেটাসেটেও যদি আপনার ক্রস বৈধতা থাকে তবে সর্বোত্তম নিয়মিতকরণের নির্বাচনের অনিশ্চয়তার বিষয়টি বিবেচনা করে) যদিও এটি তখন বেশ ধীর হয়ে যায়)।
বিটিডব্লিউ-র কাছে ধাপে ধাপের চেয়ে লাসো ফিট করার পক্ষে ধীর নয়, অবশ্যই যদি কেউ আপনার লাসো নিয়মিতকরণের জন্য অনুকূল ব্যবহার করে এমন উচ্চতর অনুকূল কোড ব্যবহার করে না (আপনি fs
পদক্ষেপের lasso
জন্য এবং bestsubset
প্যাকেজের লাসো-র জন্য কমান্ডটি ব্যবহার করে নিজেকে তুলনা করতে পারেন )। ধাপে ধাপে এগিয়ে যাওয়ার পদ্ধতিটি এখনও জনপ্রিয় বলে মনে করা যায় এমন অনেকের ভুল বিশ্বাসের সাথে সম্পর্কযুক্ত যা কেবলমাত্র আপনার চূড়ান্ত মডেলটি রাখতে পারে এবং এর সাথে সম্পর্কিত পি মানগুলি প্রতিবেদন করতে পারে - যা আসলে করা সঠিক জিনিস নয়, কারণ এটি হয় না আপনার মডেল নির্বাচনের দ্বারা প্রবর্তিত অনিশ্চয়তাটিকে বিবেচনায় আনুন, ফলস্বরূপ খুব আশাবাদী পি মানগুলির ফলে।
আশাকরি এটা সাহায্য করবে?