কেবল বৈশিষ্ট্য নির্বাচনের জন্য লাসো ব্যবহার করা


10

আমার মেশিন লার্নিং ক্লাসে, আমরা বৈশিষ্ট্য নির্বাচন সম্পাদন করতে লাসো রিগ্রেশন কীভাবে খুব ভাল তা সম্পর্কে শিখেছি, যেহেতু এটি নিয়মিতকরণ ব্যবহার করে ।1

আমার প্রশ্ন: লোকেরা সাধারণত বৈশিষ্ট্য নির্বাচন করার জন্য সাধারণত লাসো মডেলটি ব্যবহার করে (এবং তারপরে এই বৈশিষ্ট্যগুলিকে একটি আলাদা মেশিন লার্নিং মডেল হিসাবে ফেলে দিতে পারে), বা তারা সাধারণত বৈশিষ্ট্য নির্বাচন এবং প্রকৃত রিগ্রেশন উভয়ই সম্পাদনের জন্য লাসো ব্যবহার করেন?

উদাহরণস্বরূপ, ধরুন যে আপনি রিজ রিগ্রেশন করতে চান তবে আপনি বিশ্বাস করেন যে আপনার অনেকগুলি বৈশিষ্ট্য খুব ভাল নয়। লাসো চালানো কি বুদ্ধিমানের কাজ হবে, কেবলমাত্র এমন বৈশিষ্ট্যগুলি অ্যালগরিদমের দ্বারা প্রায় শূন্য নয়, এবং কেবল তখনই আপনার ডেটাগুলি একটি রিজ রিগ্রেশন মডেলটিতে ফেলে দেওয়ার ক্ষেত্রে ব্যবহার করবেন? এইভাবে, আপনি বৈশিষ্ট্য নির্বাচন সম্পাদন করার জন্য নিয়মিতকরণের সুবিধা পাবেন , তবে হ্রাস করার জন্য নিয়মিতকরণের । (আমি জানি যে এটি মূলত ইলাস্টিক নেট রিগ্রেশন এর , তবে মনে হয় চূড়ান্ত রিগ্রেশন অবজেক্টিভ ফাংশনে আপনার এবং উভয় পদ থাকতে হবে না))1212

রিগ্রেশন বাদে, শ্রেণিবিন্যাসের কার্য সম্পাদন করার সময় (এসভিএম, নিউরাল নেটওয়ার্ক, এলোমেলো বন ইত্যাদির সাহায্যে) কি এই বুদ্ধিমান কৌশল?


1
হ্যাঁ, অন্যান্য মডেলের জন্য বৈশিষ্ট্য নির্বাচনের জন্য লাসো ব্যবহার করা ভাল ধারণা। বিকল্পভাবে গাছ ভিত্তিক বৈশিষ্ট্য নির্বাচন অন্যান্য মডেলগুলিকেও খাওয়ানো যেতে পারে
কার্তিকভরদ্বাজ

1
লাসো কেবল লিনিয়ার মডেলগুলিতে বৈশিষ্ট্য নির্বাচন সম্পাদন করে - এটি উচ্চতর-আদেশের মিথস্ক্রিয়া বা ভবিষ্যদ্বাণীকারীগুলিতে অরেখার জন্য পরীক্ষা করে না। এটি কীভাবে গুরুত্বপূর্ণ হতে পারে তার উদাহরণের জন্য: stats.stackexchange.com/questions/164048/… আপনার মাইলেজটি আলাদা হতে পারে।
সাইকোরাক্স বলছেন মনিকা পুনরায়

উত্তর:


11

প্রায় কোনও পদ্ধতির যা মডেল নির্বাচনের কিছু ফর্ম করে এবং তারপরে আরও বিশ্লেষণ করে যে কোনও মডেল নির্বাচন আগে ঘটেনি সাধারণত দুর্বল অনুপাত রয়েছে। বাস্তব ব্যতীত নমুনা মাপের জন্য বিস্তৃত সিমুলেশন অধ্যয়ন এবং বৈশিষ্ট্য বনাম নমুনা আকার অনুপাতের প্রমাণগুলির দ্বারা প্রমাণিত জোরালো তাত্ত্বিক যুক্তিগুলি যদি না দেখায় যে এটি ব্যতিক্রম, সম্ভবত এই জাতীয় পদ্ধতির অসন্তুষ্ট বৈশিষ্ট্য থাকতে পারে। আমি এই পদ্ধতির জন্য এই জাতীয় কোনও ইতিবাচক প্রমাণ সম্পর্কে অবগত নই, তবে সম্ভবত অন্য কেউ। সমস্ত পছন্দসই লক্ষ্য অর্জনের যুক্তিসঙ্গত বিকল্প রয়েছে (যেমন ইলাস্টিক নেট), এই ধরণের সন্দেহের পরিবর্তে এ জাতীয় সন্দেহজনক অ্যাডহক পদ্ধতির ব্যবহারকে ন্যায়সঙ্গত করা সহজ যে এই বিকল্পটি রয়েছে Give


3
সম্মত .... বিন্দুটি হ'ল প্রতিটি ক্রসওয়েডিয়েশন ফ্রেমওয়ার্কের মধ্যে ফিট করা উচিত ... সুতরাং দুটি পৃথক নিয়মিতকরণ (অন্যথায় আপনি সমস্যার মধ্যে চলে যাবেন) করতে আপনার কিছু নেস্টেড ক্রস বৈধকরণ করা উচিত, এবং নেস্টেড ক্রসওয়েডিয়েশন এর জন্য কম ডেটা ব্যবহার করছে প্রতিটি অংশ.
seanv507

1

উপরের সমস্ত উত্তর ছাড়াও: 2x2 এবং আরএক্সসি টেবিলের জন্য সঠিক চি -2 ক্রমায়ন পরীক্ষা গণনা করা সম্ভব। আমাদের চ-বর্গ পরিসংখ্যানের পর্যবেক্ষণকৃত মানটিকে একটি অ্যাসিম্পটোটিক চি-বর্গ বিতরণের সাথে তুলনা করার পরিবর্তে আমাদের এটিকে যথাযথ ক্রম বিতরণ বিতরণের সাথে তুলনা করতে হবে। সারি এবং কলামের মার্জিনকে অবিচ্ছিন্ন রেখে আমাদের সমস্ত সম্ভাব্য উপায়ে আমাদের ডেটাগুলিকে ক্রমান্বিত করতে হবে। প্রতিটি অনুমতিযুক্ত ডেটা সেটের জন্য আমরা চি -2 পরিসংখ্যানকে গণনা করেছি। তারপরে আমরা আমাদের পর্যবেক্ষণ করা চিআই 2 এর (সাজানো) চিআই 2 পরিসংখ্যানের সাথে তুলনা করি অনুমোদিত চিআই 2 পরীক্ষার পরিসংখ্যানগুলির মধ্যে প্রকৃত পরীক্ষার পরিসংখ্যানের র‌্যাঙ্কিং একটি পি-মান দেয়।


দয়া করে আপনার উত্তরটি বিস্তারিত যুক্ত করতে পারেন? বর্তমান রূপে এটি কীভাবে সঠিক চি 2 পরীক্ষার গণনা করবে তা পরিষ্কার নয়।
এন্টোইন ভার্নেট
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.