রিজ রিগ্রেশন এবং লাসো সম্পর্কে আমার ইতিমধ্যে একটি ধারণা রয়েছে।
লাসোর জন্য, এল 1 পেনাল্টি শব্দটি একটি বিচ্ছিন্ন সহগ ভেক্টর এনে দেবে, যা বৈশিষ্ট্য নির্বাচন পদ্ধতি হিসাবে দেখা যেতে পারে। তবে লাসোর জন্য কিছু সীমাবদ্ধতা রয়েছে। যদি বৈশিষ্ট্যগুলির উচ্চ সম্পর্ক থাকে তবে লাসো কেবল তাদের মধ্যে একটি নির্বাচন করবে। তদ্ব্যতীত, > , সমস্যার জন্য লাসো বেশিরভাগ প্যারামিটার নির্বাচন করবে ( এবং যথাক্রমে পর্যবেক্ষণ এবং পরামিতির সংখ্যা)। এগুলি রিজ রিগ্রেশন এর তুলনায় অনুমানযোগ্যতার ক্ষেত্রে লাসোকে অভিজ্ঞতাকে একটি সাবপটিমাল পদ্ধতিতে পরিণত করে।
রিজ রিগ্রেশন এর জন্য, এটি সাধারণভাবে আরও ভাল অনুমানযোগ্যতা সরবরাহ করে। তবে এর ব্যাখ্যাযোগ্যতা লাসোর মতো সুন্দর নয় nice
উপরের ব্যাখ্যাটি প্রায়শই মেশিন লার্নিং / ডেটা মাইনিংয়ের পাঠ্যপুস্তকে পাওয়া যায়। তবে, আমি এখনও দুটি বিষয় সম্পর্কে বিভ্রান্ত রয়েছি:
আমরা যদি বৈশিষ্ট্যটির পরিসরটি স্বাভাবিক করে তুলি (০ থেকে ১ এর মধ্যে বলি বা শূন্য গড় এবং একক বৈচিত্র সহ) এবং রিজ রিগ্রেশন চালাই তবে আমাদের সহগের পরম মানগুলি বাছাই করে বৈশিষ্ট্যের গুরুত্ব সম্পর্কে ধারণা থাকতে পারে (সর্বাধিক গুরুত্বপূর্ণ বৈশিষ্ট্যটিতে রয়েছে সহগের সর্বোচ্চ পরম মান)। যদিও আমরা স্পষ্টভাবে বৈশিষ্ট্যগুলি নির্বাচন করছি না, রিজ রিগ্রেশন ব্যবহার করে ব্যাখ্যাযোগ্যতা হারাবে না। একই সময়ে, আমরা এখনও উচ্চ পূর্বাভাস শক্তি অর্জন করতে পারি। তাহলে কেন আমাদের লাসো দরকার? আমি কি এখানে কিছু মিস করছি?
বৈশিষ্ট্য নির্বাচন প্রকৃতির কারণে লাসো কী পছন্দ হয়? আমার বোধগম্যতার জন্য, আমাদের বৈশিষ্ট্য নির্বাচনের প্রয়োজনের কারণগুলি হ'ল সাধারণকরণ এবং গণনা সহজ করার ক্ষমতা।
গণনার স্বাচ্ছন্দ্যের জন্য, আমরা কিছু মডেলগুলিতে সমস্ত 1 মিলিয়ন বৈশিষ্ট্যগুলিকে ফিড করতে চাই না যদি আমরা কিছু এনএলপি কাজ সম্পাদন করি, সুতরাং আমরা গণ্যমূল্য ব্যয় হ্রাস করতে প্রথমে কিছু স্পষ্টত অকেজো বৈশিষ্ট্যগুলি বাদ দিই। তবে, লাসোর জন্য আমরা কেবলমাত্র আমাদের মডেলটিতে সমস্ত ডেটা ফিড করার পরে বৈশিষ্ট্য নির্বাচনের ফলাফল (স্পার্স ভেক্টর) জানতে পারি, সুতরাং আমরা কম্পিউটেশনাল ব্যয় হ্রাস করার ক্ষেত্রে লাসো থেকে কোনও উপকার পাব না। ভবিষ্যদ্বাণী করা ফলাফল উত্পন্ন করতে আমরা কেবলমাত্র আমাদের মডেলটিতে বৈশিষ্ট্যগুলির উপসেটটি (1 মিলিয়ন এর মধ্যে 500 বলুন) ফিড হিসাবে কেবলমাত্র একটু দ্রুত ভবিষ্যদ্বাণী করতে পারি।
যদি লাসো সাধারণীকরণের দক্ষতার জন্য পছন্দসই হয় তবে আমরা রিজ রিগ্রেশন (বা অন্য কোনও ধরণের নিয়ামককরণ) ব্যবহার করে একই লক্ষ্য অর্জন করতে পারি। কেন আমাদের আবার ল্যাসো (বা ইলাস্টিক নেট) দরকার? কেন আমরা কেবল রিজ রিগ্রেশনকে আটকে রাখতে পারি না?
কেউ দয়া করে কিছু আলোকপাত করতে পারেন? ধন্যবাদ!