কোন নিয়মিতকরণ (এল 1 বা এল 2) ব্যবহার করবেন তা কীভাবে সিদ্ধান্ত নেবেন?
তোমার লক্ষ্য কি? উভয়ই সহগকে শাস্তি দিয়ে মডেল জেনারেলাইজেশন উন্নত করতে পারে, যেহেতু ফলাফলের সাথে বিপরীত সম্পর্কের বৈশিষ্ট্যগুলি একে অপরকে "অফসেট" করতে পারে (একটি বৃহত্তর ধনাত্মক মান একটি বৃহত্তর নেতিবাচক মানের দ্বারা সামঞ্জস্যযুক্ত)। কলিনারি বৈশিষ্ট্যগুলি থাকলে এটি দেখা দিতে পারে। ডেটাতে ছোট পরিবর্তনগুলির ফলে নাটকীয়ভাবে বিভিন্ন পরামিতি অনুমান (উচ্চতর ভেরিয়েন্স অনুমান) হতে পারে। পেনালাইজেশন উভয় সহগকে ছোট হতে বাধা দিতে পারে। (হাস্টি এট আল, পরিসংখ্যান শিক্ষার উপাদানসমূহ , ২ য় সংস্করণ, পৃষ্ঠা 63৩)
এল 1 / এল 2 নিয়মিতকরণের প্রতিটিের পক্ষে কী কী?
NN -শূন্য । প্রসঙ্গের উপর নির্ভর করে, এটি আপনি যা চান তা নাও হতে পারে।
এল 1 নিয়মিতকরণ কখনও কখনও বৈশিষ্ট্য নির্বাচন পদ্ধতি হিসাবে ব্যবহৃত হয়। মনে করুন আপনি যে বৈশিষ্ট্যগুলি ব্যবহার করতে পারেন তার সংখ্যার উপর আপনার একধরনের হার্ড ক্যাপ রয়েছে (কারণ ডেটা সংগ্রহের জন্য সমস্ত বৈশিষ্ট্যের ব্যয়বহুল, বা আপনি কতগুলি মান সংরক্ষণ করতে পারেন ইত্যাদি বিষয়ে আপনার ইঞ্জিনিয়ারিংয়ের সীমাবদ্ধতা রয়েছে)। আপনার পছন্দসই সংখ্যাটি শূন্য নয় এমন বৈশিষ্ট্যগুলিকে আঘাত করতে আপনি এল 1 জরিমানার টিউন করার চেষ্টা করতে পারেন।
L2 নিয়মিতকরণটি গুণমানের আদর্শকে সীমাবদ্ধ করে এবং সমস্ত ভেরিয়েবলগুলি রেখে বহুবিধ লাইন সমস্যাটি সমাধান করতে পারে। কোনও গুণগত মানের হুবহু 0 হওয়ার জন্য এটি অনুমান করার সম্ভাবনা কম This এটি অপ্রয়োজনীয় কোনও অসুবিধা নয়, যদি না কোনও কারণে খুব কম সংখ্যক ভেক্টর গুরুত্বপূর্ণ হয়।
রিগ্রেশন সেটিং-এ, পর্যবেক্ষণের চেয়ে বেশি বৈশিষ্ট্যযুক্ত কোনও রিগ্রেশনকে অনুমান করার সমস্যার এটি "ক্লাসিক" সমাধান। এল 2 নিয়মিতকরণ পর্যবেক্ষণের চেয়ে আরও বেশি বৈশিষ্ট্য উপস্থিত থাকলেও প্রতিটি বৈশিষ্ট্যের জন্য একটি গুণফলের অনুমান করতে পারে (সত্যই এটি "রিজ রিগ্রেশন" এর মূল প্রেরণা ছিল)।
বিকল্প হিসাবে, ইলাস্টিক নেট বিশেষ কেস হিসাবে এল 1 এবং এল 2 নিয়ন্ত্রণের অনুমতি দেয়। শিল্পের কোনও ডেটা বিজ্ঞানীর ক্ষেত্রে একটি সাধারণ ব্যবহারের ক্ষেত্রটি হ'ল আপনি কেবল সেরা মডেলটি বেছে নিতে চান তবে এটি L1, L2 বা উভয় ব্যবহার করে দণ্ডিত হয়েছে কিনা তা অগত্যা যত্ন করবেন না। ইলাস্টিক নেট এ জাতীয় পরিস্থিতিতে দুর্দান্ত।
L1 ব্যবহার করে 1 তম বৈশিষ্ট্য নির্বাচন করার পরামর্শ দেওয়া হয় এবং তারপর এই নির্বাচিত ভেরিয়েবলগুলিতে L2 প্রয়োগ করুন?
আমি L1-then-L2 পাইপলাইনের প্রস্তাবিত একটি প্রকাশনার সাথে পরিচিত নই, তবে এটি সম্ভবত আমার পক্ষে অজ্ঞতা। এতে কোনও ভুল আছে বলে মনে হয় না। আমি একটি সাহিত্য পর্যালোচনা পরিচালনা করব।
অনুরূপ "পর্যায়ক্রমে" পাইপলাইনগুলির কয়েকটি উদাহরণ বিদ্যমান। একটি হ'ল "রিলাক্সড লাসো", যা দুটি বার লাসো রিগ্রেশন প্রয়োগ করে , একবার একটি বড় গ্রুপ থেকে একটি ছোট গ্রুপের বৈশিষ্ট্যগুলিতে ডাউন-সিলেক্ট করতে এবং দ্বিতীয়টি কোনও মডেলটিতে ব্যবহারের জন্য সহগের অনুমানের জন্য। এটি পেনাল্টির পরিমাণ বাড়ানোর জন্য প্রতিটি পদক্ষেপে ক্রস-বৈধতা ব্যবহার করে। যুক্তিটি হ'ল প্রথম ধাপে, আপনি ক্রস-বৈধতা দিন এবং সম্ভবত অপ্রাসঙ্গিক ভবিষ্যদ্বাণীদের স্ক্রিন করার জন্য একটি বৃহত জরিমানা বেছে নেবেন; দ্বিতীয় ধাপে, আপনি ক্রস-বৈধতা দিন এবং সম্ভবত একটি ছোট জরিমানা বেছে নেবে (এবং এর ফলে আরও বড় সহগ)। নিকোলাই মেইনশাউসনের ("রিল্যাক্সড লাসো।" গণনা সংক্রান্ত পরিসংখ্যান এবং ডেটা বিশ্লেষণের সাথে উদ্ধৃতি দিয়ে পরিসংখ্যান শিক্ষার উপাদানসমূহে এটি সংক্ষেপে উল্লেখ করা হয়েছে) খণ্ড 52, সংখ্যা 1, 15 সেপ্টেম্বর 2007, পিপি 374-393)।
ব্যবহারকারী @ অ্যামিবাও একটি এল 1-এর পরে-ওএলএস পাইপলাইনের পরামর্শ দেয়; এটি চমৎকার হতে পারে কারণ এটিতে L1 পেনাল্টির মাত্রার জন্য কেবলমাত্র 1 হাইপারপ্যারামিটার রয়েছে, তাই কম ফিডিংয়ের প্রয়োজন হবে।
একটি সমস্যা যা যে কোনও "পর্যায়ক্রমে" বিশ্লেষণ পাইপলাইনের সাথে উত্থাপিত হতে পারে যা কিছু পদক্ষেপ এবং তারপরে পৃথকভাবে কিছু অন্যান্য পদক্ষেপগুলি হ'ল সেই বিভিন্ন অ্যালগরিদমের মধ্যে কোনও "দৃশ্যমানতা" নেই, সুতরাং একটি প্রক্রিয়া পূর্ববর্তী পদক্ষেপগুলিতে ঘটে যাওয়া কোনও ডাটা স্নুপিং উত্তরাধিকার সূত্রে প্রাপ্ত হয়। এই প্রভাব তুচ্ছ নয়; দুর্বল-কল্পনা করা মডেলিংয়ের ফলে আবর্জনা মডেল হতে পারে।
ডেটা স্নুপিং পার্শ্ব প্রতিক্রিয়াগুলির বিরুদ্ধে হেজ করার একটি উপায় হ'ল আপনার সমস্ত পছন্দ পছন্দ করে cross যাইহোক, বর্ধিত গণনা ব্যয় প্রতিরোধমূলক প্রমাণ করতে পারে।