বৈশিষ্ট্য নির্বাচনের জন্য এলোমেলোভাবে পারমিটেশন পরীক্ষা


9

আমি একটি লজিস্টিক রিগ্রেশন প্রসঙ্গে বৈশিষ্ট্য নির্বাচনের জন্য ক্রমায়ন বিশ্লেষণ সম্পর্কে বিভ্রান্ত হয়ে পড়েছি।
আপনি কি এলোমেলোভাবে পারমিটেশন পরীক্ষার একটি পরিষ্কার ব্যাখ্যা সরবরাহ করতে পারেন এবং এটি কীভাবে বৈশিষ্ট্য নির্বাচনের ক্ষেত্রে প্রযোজ্য? সম্ভবত সঠিক অ্যালগরিদম এবং উদাহরণ সহ।

অবশেষে, এটি অন্যান্য সংকোচন পদ্ধতির সাথে লাসো বা এলএআর এর সাথে কীভাবে তুলনা করে?


5
আপনি কি এর মতো কিছু বোঝাতে চাইছেন, যেমন, যেখানে নকশার ম্যাট্রিক্সের একটি একক কলামের প্রবেশিকা অনুমতি দেওয়া হয়েছে, প্রতিক্রিয়া এবং অন্যান্য covariates ধরে রেখে? আপনি যদি ব্যবহার করছেন এমন কোনও নির্দিষ্ট রেফারেন্স থাকে তবে এটি তালিকাবদ্ধ করতে এটি সহায়ক হতে পারে।
কার্ডিনাল

আমি মনে করি এই লিঙ্কটি citeseerx.ist.psu.edu/viewdoc/… সঠিক কৌশল বোঝায়। আমি বর্তমানে প্রভাষকের সাথে যোগাযোগ করার চেষ্টা করছি যিনি আমাকে এই পদ্ধতি সম্পর্কে বলেছেন ...
উগো

তাঁর (ডোনাল্ড জেমান) সাথে যোগাযোগ করতে ফিরে পরিচালনা করতে পারেনি
উগো

2
আপনার প্রশ্নে অস্পষ্ট পয়েন্ট রয়েছে যা আপনি পরিষ্কার করতে চাইতে পারেন। লিঙ্কযুক্ত কাগজে অ্যালগরিদমের একটি সুন্দর পরিষ্কার বর্ণনা রয়েছে description আপনি কি এই অ্যালগরিদম সম্পর্কে নির্দিষ্ট কিছু জিজ্ঞাসা করতে চান? আপনি কি প্রান্তিক মানের মূল্যায়ন করতে চান তার বৈশিষ্ট্য নির্বাচন করার ধারণাটি কী? তাছাড়া, আপনার কাগজে সংজ্ঞা 2 প্রশ্ন করা উচিত । এটি একটি অসমর্থিত দাবি, যা একটি কার্যকরী ধারণা হতে পারে, তবে ছোট প্রান্তিক মূল্যগুলি সাধারণভাবে প্রাসঙ্গিকভাবে প্রাসঙ্গিকতা দেয় না। LAR, যাইহোক, লিনিয়ার রিগ্রেশন করা এবং বাইনারি প্রতিক্রিয়ার জন্য সত্যই নয়। pp
এনআরএইচ

উত্তর:


10

(এখন খুব বেশি সময় নেই তাই আমি সংক্ষিপ্তভাবে উত্তর দেব এবং তারপরে পরে প্রসারিত করব)

বলুন যে আমরা একটি বাইনারি শ্রেণিবদ্ধকরণ সমস্যা বিবেচনা করছি এবং ক্লাস 1 নমুনা এবং ক্লাস 2 নমুনার একটি প্রশিক্ষণ পেয়েছি । বৈশিষ্ট্য নির্বাচনের জন্য একটি ক্রমশক্তি পরীক্ষা প্রতিটি বৈশিষ্ট্য পৃথকভাবে দেখায়। একটি পরীক্ষা পরিসংখ্যান , যেমন তথ্য অর্জন বা মাধ্যমের মধ্যে স্বাভাবিক পার্থক্য, বৈশিষ্ট্যের জন্য গণনা করা হয়। বৈশিষ্ট্যের জন্য ডেটাটি এলোমেলোভাবে অনুমতি দেওয়া এবং দুটি সেটে বিভক্ত করা হয়, একটি আকারের এবং একটি আকার । পরীক্ষার পরিসংখ্যান এর পরে এই নতুন পার্টিশন উপর ভিত্তি করে গণনা করা হয়mnθmnθpp। সমস্যার গণনামূলক জটিলতার উপর নির্ভর করে, বৈশিষ্ট্যটির সমস্ত সম্ভাব্য পার্টিশনগুলির পরে এটি দুটি সেট অর্ডার এবং , বা এগুলির একটি এলোমেলো উপসেটে পুনরাবৃত্তি করা হয় ।mn

এখন যে আমরা উপর একটি বিতরণ প্রতিষ্ঠিত , আমরা P-মান পর্যবেক্ষিত পরীক্ষার পরিসংখ্যান নিরূপণ বৈশিষ্ট্যের একটি র্যান্ডম পার্টিশন থেকে পড়েছিল। নাল অনুমানটি হ'ল প্রতিটি শ্রেণীর নমুনা একই অন্তর্নিহিত বিতরণ থেকে আসে (বৈশিষ্ট্যটি অপ্রাসঙ্গিক)।θpθ

এই প্রক্রিয়াটি সমস্ত বৈশিষ্ট্যগুলির উপরে পুনরাবৃত্তি হয় এবং তারপরে শ্রেণিবিন্যাসের জন্য ব্যবহৃত বৈশিষ্ট্যগুলির উপসেটটি দুটি উপায়ে নির্বাচন করা যেতে পারে:

  • সর্বনিম্ন P-মান অতিরিক্ত বৈশিষ্ট্যগুলিও উপস্থিত রয়েছেN
  • একটি পি-মান সহ সমস্ত বৈশিষ্ট্য<ϵ
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.