পরিবর্তনশীল নির্বাচন কেন প্রয়োজনীয়?


31

সাধারণ তথ্য-ভিত্তিক ভেরিয়েবল নির্বাচন পদ্ধতি (উদাহরণস্বরূপ, এগিয়ে, পিছিয়ে, ধাপে ধাপে, সমস্ত উপসর্গ) অনাকাঙ্ক্ষিত বৈশিষ্ট্যযুক্ত মডেল উত্পাদন করতে ঝোঁক থাকে:

  1. গুণাগুণগুলি শূন্য থেকে দূরে রয়েছে।
  2. স্ট্যান্ডার্ড ত্রুটিগুলি যা খুব ছোট এবং আত্মবিশ্বাসের ব্যবধানগুলি খুব সংকীর্ণ।
  3. পরীক্ষার পরিসংখ্যান এবং পি-মানগুলির বিজ্ঞাপনী অর্থ নেই।
  4. মডেল ফিটের প্রাক্কলন যা অত্যধিক আশাবাদী।
  5. অর্থহীন হতে পারে এমন শর্তাদি (উদাহরণস্বরূপ, নিম্ন-আদেশের শর্তাদি বাদ) exc

তবুও, পরিবর্তনশীল নির্বাচনের পদ্ধতি অব্যাহত রয়েছে। পরিবর্তনশীল নির্বাচনের সমস্যাগুলি দেওয়া, কেন এই পদ্ধতিগুলি প্রয়োজনীয়? কী তাদের ব্যবহার অনুপ্রেরণা দেয়?

আলোচনা শুরু করার জন্য কয়েকটি প্রস্তাব ....

  • ব্যাখ্যাযোগ্য রিগ্রেশন সহগগুলির জন্য আকাঙ্ক্ষা? (অনেক আইভি সহ মডেলটিতে বিভ্রান্ত?)
  • অপ্রাসঙ্গিক ভেরিয়েবল দ্বারা প্রবর্তিত বৈকল্পিক বিলোপ?
  • স্বতন্ত্র ভেরিয়েবলগুলির মধ্যে অপ্রয়োজনীয় কোভেরিয়েন্স / রিডানড্যানসিকে বাদ দিন?
  • প্যারামিটার অনুমানের সংখ্যা হ্রাস করুন (পাওয়ারের বিষয়, নমুনার আকার)

অন্য কেউ আছে? পরিবর্তনশীল নির্বাচনের পদ্ধতিগুলি যে সমস্যাগুলি পরিবর্তনশীল নির্বাচন প্রক্রিয়াগুলির সাথে পরিচয় করিয়ে দেয় সেগুলির চেয়ে সমস্যাগুলি কি কমবেশি গুরুত্বপূর্ণ? এগুলি কখন ব্যবহার করা উচিত? এগুলি কখন ব্যবহার করা উচিত নয়?


আমার মতে, কোনও সমস্যা স্পষ্টভাবে আলোচনার জন্য, আমাদের প্রথমে এটি কিছু ভাল উপায়ে নির্দিষ্ট করতে হবে এবং তারপরে এটি একটি উপযুক্ত গাণিতিক আকারে প্রণয়ন করা প্রয়োজন যাতে আমাদের একটি কাঠামো থাকতে পারে যার অধীনে সমস্যাটি পরিষ্কারভাবে আলোচিত হয়। পরিবর্তনশীল নির্বাচনের সমস্যার জন্য যেমন লিনিয়ার রিগ্রেশন মডেল। প্রথমে কোনও মডেলটি সংশোধন করা যুক্তিসঙ্গত বলে মনে হয় এবং (i) পরিবর্তনশীল নির্বাচনের সুবিধাগুলি / অসুবিধাগুলি (যেমন, অনুমান বা পূর্বাভাসে উন্নতি / অবনতি)? (ii) এলএস অনুমানের তুলনায় পরিবর্তনশীল নির্বাচন পদ্ধতির সুবিধাগুলি?

উত্তর:


17

পরিবর্তনশীল নির্বাচন (দণ্ড ছাড়াই) কেবল জিনিসগুলিকে আরও খারাপ করে তোলে। চলক নির্বাচনের "ডান" ভেরিয়েবলগুলি সন্ধানের প্রায় কোনও সম্ভাবনা নেই এবং এর ফলে অবশিষ্ট ভেরিয়েবলের প্রভাবের বৃহত্তর ওভারস্টেটমেন্ট এবং স্ট্যান্ডার্ড ত্রুটির বিশাল সংক্ষিপ্তকরণের ফলাফল হয়। এটি বিশ্বাস করা ভুল যে ভেরিয়েবল নির্বাচনটি সাধারণ পদ্ধতিতে করা একটি "লার্জ পি ছোট এন" সমস্যাটি পেতে সহায়তা করে। নীচের লাইনটি চূড়ান্ত মডেলটি প্রতিটি উপায়ে বিভ্রান্ত করছে। এটি একটি এপিডেমিওলজি পেপারে পড়ে যাওয়া অবাক করা বিবরণের সাথে সম্পর্কিত: "আমাদের কাছে মাল্টিভারেবল মডেল বিকাশের জন্য পর্যাপ্ত নমুনার আকার ছিল না, তার পরিবর্তে আমরা 2x2 টেবিলের জন্য সমস্ত সম্ভাব্য পরীক্ষা করেছি" "

সিদ্ধান্ত নেওয়ার জন্য ওয়াইয়ের ব্যবহার করার সময়, হাতে থাকা ডেটাসেটটি ভেরিয়েবলগুলি মুছে ফেলার জন্য ব্যবহৃত হয়, সমস্ত পরিসংখ্যানের পরিমাণ বিকৃত করা হবে। সাধারণত চলক নির্বাচনটি একটি মরীচিকা।

সম্পাদনা : (ভাঁজ দ্বারা গোপন নীচে থেকে মন্তব্য অনুলিপি করা)

আমি স্ব-পরিবেশন হতে চাই না তবে আমার বইটি রিগ্রেশন মডেলিং স্ট্র্যাটেজিগুলি কিছুটা গভীরতার সাথে চলে। হ্যান্ডআউট সহ অনলাইন উপকরণগুলি আমার ওয়েবপৃষ্ঠায় পাওয়া যেতে পারে । কয়েকটি উপলভ্য পদ্ধতি হ'ল পেনালাইজেশন (রিজ রিগ্রেশন), এল 1 পেনালাইজেশন (লাসো) এবং তথাকথিত ইলাস্টিক নেট ( এল 1 এবং এল 2 এর সংমিশ্রণ )। বা রিগ্রেশন করার আগে ডেটা হ্রাস (প্রতিক্রিয়া ওয়াকে অন্ধ করে ) ব্যবহার করুন । আমার বইটি শাস্তির চেয়ে বেশি জায়গা ব্যয় করে।এল2এল1এল1এল2ওয়াই


6
আমি মনে করি কীভাবে এগিয়ে যাওয়া যায় সে সম্পর্কে কিছু ইঙ্গিত সরবরাহ করে এই উত্তরটির উন্নতি হবে। দাবির প্রতিরোধকারী সংস্থাগুলির উল্লেখ ছাড়াই উত্তরটি খুব বিস্তৃত এবং যথাযথ বিবৃতি দেয় (যার মধ্যে বেশিরভাগ ক্ষেত্রে আমি সাধারণত সম্মত হই) অবশ্যই শাস্তি কোনও নিরাময়ের বিষয় নয়, এবং যদি কেউ সেই রাস্তায় নেমে যায় তবে অনেকগুলি বিকল্প নির্বাচন করতে হবে।
কার্ডিনাল

3
উপরে আরও দেখুন যেখানে আমি আরও তথ্য সরবরাহ করেছি। সমস্যাটি বর্ণনা করার সংক্ষিপ্ততম উপায় হ'ল ভেরিয়েবলটি "নির্বাচিত" হওয়ার মূল কারণ হ'ল এর প্রভাবটি অত্যধিক সংক্ষিপ্ত।
ফ্র্যাঙ্ক হ্যারেল

2
হ্যাঁ, আমি সম্মত হই যে আপনার বইতে এটিতে কিছু ভাল উপাদান রয়েছে যেমন উদাহরণস্বরূপ, ESL। (এটি বলেছিল, ইএসএল-তে অন্ততপক্ষে কয়েকটি দৃষ্টান্ত রয়েছে যেখানে পশ্চাৎপদ নির্বাচনের কিছু ফর্মও নিযুক্ত রয়েছে।) আপনি পেনালাইজেশন (ওরফে রিজ রিগ্রেশন) উল্লেখ করেছেন, তবে এটি সাধারণত ভেরিয়েবলের ক্ষেত্রে খুব বেশি দূরে পায় না / মডেল নির্বাচন প্রতি সে। ইলাস্টিক নেটটির কিছুটা ঠিক আচরণ রয়েছে, তবে আমার মনে এর অপূর্ণতা হ'ল আপনি এটিকে যেভাবেই দেখেন না কেন এটি খুব সুন্দর বা প্রাকৃতিক "পরিসংখ্যানগত" ব্যাখ্যা স্বীকার করে না, যেখানে এল 1 এবং এল 2 উভয়ই শাস্তি নির্দিষ্টভাবে করে অজ্ঞান। এল2এল1এল2
কার্ডিনাল

2
ভাল পয়েন্ট যদিও আমি মনে করি যে একটি প্রাকৃতিক ব্যাখ্যা দেয় কারণ এটি একই মডেল সহগের অনুমানের অন্য উপায়। তুমি ঠিক এল 2 ছাড়া এল 1 কোন ভেরিয়েবল মুছে যায় না। আমরা এটি উচ্চতর ভবিষ্যদ্বাণীমূলক কর্মক্ষমতা এবং বৃহত পি ছোট এন কেস পরিচালনা করার জন্য করি handle এল2এল2এল1পিএন
ফ্র্যাঙ্ক হ্যারেল

2
আমার মতামত আমার উদ্দেশ্য হিসাবে তেমন পরিষ্কার ছিল না। হ্যাঁ, আমি সম্মত হই যে দণ্ডের নিজে থেকেই একাধিক দুর্দান্ত ব্যাখ্যা রয়েছে, যদিও এর ফলে কোনও পরিবর্তনশীল নির্বাচনের ফলাফল হয় না। এটি স্থিতিস্থাপক জাল যে আমি কোনও পরিসংখ্যানগত দৃষ্টিভঙ্গি থেকে বিশেষত ভালভাবে অনুপ্রাণিত বা প্রাকৃতিক খুঁজে পাই না যে কিছু ক্ষেত্রে উন্নত ভবিষ্যদ্বাণীপূর্ণ কর্মক্ষমতা অর্জন করা হয়। এল2
কার্ডিনাল

14

প্রথমত, আপনি যে অসুবিধাগুলি উল্লেখ করেছেন সেগুলি হ'ল বৈশিষ্ট্য নির্বাচনের প্রভাবগুলি ভুল হয়ে গেছে , অর্থাত্ ফিটফাট, অসম্পূর্ণ বা বেশি হওয়া।

ওয়াইওয়াইওয়াইওয়াই

সমস্ত প্রাসঙ্গিক স্তর প্রদত্ত প্রক্রিয়াটি সত্যিকার অর্থে চালিত করে তার মধ্যে একটি অন্তর্দৃষ্টি দেয়, সুতরাং ব্যাখ্যামূলক মান থাকবে। ন্যূনতম অনুকূল স্তর (নকশা দ্বারা) নন-ওভারফিটেড মডেল হিসাবে যতটা সম্ভব নিরবচ্ছিন্ন ডেটা হিসাবে কাজ করে gives

রিয়েল-ওয়ার্ল্ড এফএস কেবল সেই লক্ষ্যগুলির মধ্যে একটি (সাধারণত পরবর্তী) অর্জন করতে চায়।


4
আমি ধরে নিই যে আপনি হাতের ডেটা ব্যবহার না করে ভেরিয়েবলগুলি অপসারণের জন্য উল্লেখ করছেন। এটি করার জন্য আপনি হাতের ডেটাसेट ব্যবহার করতে পারবেন না। এটি অবিশ্বাস্য হবে এবং পরিসংখ্যানগত অনুক্রমকে বিকৃত করবে।
ফ্রাঙ্ক হ্যারেল

আমি যেমন লিখেছি, এটি সমস্যার একটি তাত্ত্বিক ভিত্তি (বায়েশিয়ান নেট থেকে আসা)। এটি উপলব্ধি করার সঠিক উপায়টি স্পষ্টতই অসম্ভব, এবং আমি অবশ্যই সম্মত হই যে পরিসংখ্যানগত মডেলিংয়ের আরএফই এবং অনুরূপ সামগ্রীর নির্বোধ ব্যবহারের ফলে অনেক ক্ষতি হয়েছে - তবুও মেশিন লার্নিংয়ে কিছু হিউরিস্টিক অ্যালগরিদম রয়েছে যা অবশ্যই নিরাশ নয় (যেমন স্থির নির্বাচন এবং মডেলগুলি তৈরি করে) যা ন্যায্য পরীক্ষায় অতিমাত্রায় না প্রমাণিত হয়।


@kjetilbhalvorsen পুনরাবৃত্ত বৈশিষ্ট্য নির্মূল

আপনার আকর্ষণীয় উত্তরের জন্য @mbq থেক্স! আপনি কোনও রেফারেন্স (বই, কাগজপত্র ইত্যাদি) সরবরাহ করতে পারেন? আপনার উত্তর প্রশংসা!
ক্যার

10

পরিবর্তনীয় নির্বাচন অগত্যা প্রয়োজনীয় কারণ বেশিরভাগ মডেল প্রচুর পরিমাণে অপ্রাসঙ্গিক ভেরিয়েবলের সাথে ভালভাবে আচরণ করে না। এই ভেরিয়েবলগুলি কেবলমাত্র আপনার মডেল বা এর চেয়ে খারাপের জন্য শব্দ প্রবর্তন করবে, আপনাকে অতিরিক্ত ফিট করার কারণ করবে। বিশ্লেষণ থেকে এই পরিবর্তনগুলি বাদ দেওয়া ভাল ধারণা।

তদ্ব্যতীত, আপনি প্রতিটি বিশ্লেষণে বিদ্যমান সমস্ত ভেরিয়েবলগুলি অন্তর্ভুক্ত করতে পারবেন না, কারণ সেগুলির মধ্যে অসীম সংখ্যা রয়েছে। এক পর্যায়ে আপনাকে লাইন আঁকতে হবে এবং কঠোর পদ্ধতিতে এটি করা ভাল। ভেরিয়েবল নির্বাচনের জন্য সমস্ত আলোচনা।

ভেরিয়েবল নির্বাচনের বেশিরভাগ ইস্যু ক্রস-বৈধকরণের মাধ্যমে বা বিল্ট-ইন পেনালাইজেশন এবং ফিচার সিলেকশন সহ মডেল ব্যবহার করে (যেমন লিনিয়ার মডেলগুলির জন্য ইলাস্টিক নেট) ব্যবহার করা যেতে পারে।

যদি আপনি একাধিক ভেরিয়েবলের সাথে অতিরিক্ত-ফিটনেস সংক্রান্ত কিছু পরীক্ষামূলক ফলাফলের প্রতি আগ্রহী হন, তবে কেগল-এর উপরে ওভারফিট প্রতিযোগিতার ফলাফলগুলি দেখুন।


1
আমি মনে করি প্রথম অনুচ্ছেদে সমস্যার একটি উল্লেখযোগ্য ভুল বোঝাবুঝি রয়েছে। পরিবর্তনশীল নির্বাচন কোনওভাবেই এই সমস্যাগুলির সাথে সহায়তা করে না, এটি কেবল তাদের লুকিয়ে রাখে। পরিবর্তনশীল নির্বাচনের ফলে প্রচুর পরিমাণে সমস্যা দেখা দেয়, যদিও আপনি পরে উল্লেখ করেছেন যে পরিবর্তনীয় নির্বাচনের ফলে ক্ষতির জন্য সততার সাথে নিজেকে দণ্ডিত করার কিছু উপায় রয়েছে।
ফ্র্যাঙ্ক হ্যারেল

3
@ ফ্র্যাঙ্ক হ্যারেল: আপনি কীভাবে সিদ্ধান্ত নেবেন কোন মডেল থেকে কোন পরিবর্তনশীল বাদ দেবেন?
জাচ

11
(1) ডেটাসেট দেখার আগে বিষয়বস্তু জ্ঞান ব্যবহার করুন; (২) অনর্থক বিশ্লেষণ / ডেটা হ্রাসকে ওয়াইয়ের কাছে অন্ধ করে ব্যবহার করুন; (৩) এমন একটি পদ্ধতি ব্যবহার করুন যা বৈশিষ্ট্য নির্বাচন করার কারণে সৃষ্ট বিশাল একাধিক তুলনামূলক সমস্যার জন্য পর্যাপ্ত পরিমাণে দণ্ডিত হয় (এই পৃষ্ঠায় অন্য কোথাও দেখুন)।
ফ্র্যাঙ্ক হ্যারেল
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.