পরিবর্তনশীল নির্বাচন সম্পাদন করার সময় মাল্টিকোলাইনারিটির সাথে কীভাবে মোকাবিলা করবেন?


28

আমার কাছে 9 অবিচ্ছিন্ন স্বতন্ত্র ভেরিয়েবলগুলি সহ একটি ডেটাসেট রয়েছে। আমি একক শতাংশ (নির্ভরশীল) ভেরিয়েবলের সাথে কোনও মডেল ফিট করতে এই ভেরিয়েবলগুলির মধ্যে নির্বাচন করার চেষ্টা করছি Score। দুর্ভাগ্যক্রমে, আমি জানি যে বেশ কয়েকটি ভেরিয়েবলের মধ্যে গুরুতর সহপাঠ্যতা থাকবে।

আমি stepAIC()ভেরিয়েবল নির্বাচনের জন্য ফাংশনটি ব্যবহার করার চেষ্টা করেছি , তবে সেই পদ্ধতিটি, অদ্ভুতভাবে, সমীকরণের মধ্যে ভেরিয়েবলগুলি তালিকাভুক্ত করার ক্রমটি সংবেদনশীল বলে মনে হচ্ছে ...

এখানে আমার আর কোড (কারণ এটি শতাংশের ডেটা, আমি স্কোরের জন্য লগইট ট্রান্সফর্মেশন ব্যবহার করি):

library(MASS)
library(car)

data.tst = read.table("data.txt",header=T)
data.lm = lm(logit(Score) ~ Var1 + Var2 + Var3 + Var4 + Var5 + Var6 + Var7 +
             Var8 + Var9, data = data.tst)

step = stepAIC(data.lm, direction="both")
summary(step)

কিছু কারণে, আমি খুঁজে পেয়েছি যে সমীকরণের শুরুতে তালিকাভুক্ত ভেরিয়েবলগুলি stepAIC()ফাংশন দ্বারা নির্বাচিত হয়ে যায় এবং ফলাফলটি তালিকা দ্বারা উদাহরণস্বরূপ, Var9প্রথমে (টিলড অনুসরণ করে) পরিচালনা করা যেতে পারে ulated

এখানে কোনও মডেল ফিট করার আরও কার্যকর (এবং কম বিতর্কিত) উপায় কী? আমি লিনিয়ার রিগ্রেশন ব্যবহারের পক্ষে আসলে নির্ধারিত নই: কেবলমাত্র 9 টি ভেরিয়েবলের মধ্যে কোনটি ভেরিয়েবলের মধ্যে সত্যতা পরিবর্তিত করে তা বুঝতে সক্ষম হ'ল কেবলমাত্র আমি চাই Score। অগ্রাধিকার হিসাবে, এটি এমন কিছু পদ্ধতি হবে যা এই 9 টি ভেরিয়েবলগুলিকে একত্রিত করার জন্য শক্তিশালী সম্ভাবনা গ্রহণ করে।


6
কোলিনারিটির অর্থ হ'ল, তবে আপনি বিশ্লেষণটি করুন যে কোনও ভেরিয়েবলটি তার চলকের চেয়ে বেশি বা কম যে কোনও ভেরিয়েবলের সাথে 'ড্রাইভিং' করছে কিনা তা নির্ধারণ করা মূলত অসম্ভব। এই সীমাবদ্ধতার কথা মাথায় রেখে আপনি লসোটিকে একটি স্বল্প সংখ্যক ভেরিয়েবল নির্বাচন করার উপায় হিসাবে চেষ্টা করতে পারেন যা যথাযথভাবে পূর্বাভাস দেয়, তারপরে এটি নির্বাচন করে এমন ভেরিয়েবলগুলির সেট এবং যেগুলির সাথে সেই সেটটি চূড়ান্তভাবে প্রান্তিক is গ্রুপযুক্ত লাসো আরেকটি বিকল্প।
গেস্ট

4
@ গয়েস্ট: বিশেষত মডেল নির্বাচনের সমস্যা সম্পর্কিত, শক্তিশালী কোলাইনারিটির উপস্থিতিতে লাসো বিশেষভাবে ভাল কাজ করে না।
কার্ডিনাল

2
@ কার্ডিনাল, লাসো ঠিক আছে তবে বেশ কয়েকটি ভেরিয়েবল পারস্পরিক সম্পর্কযুক্ত হলে এটির মধ্যে একটি মাত্র বেছে নেওয়ার প্রবণতা দেখাবে, এ কারণেই আমি উচ্চ কলিনারি ভেরিয়েবলগুলির সেটটি দেখার পরামর্শ দিয়েছিলাম। এই 'ডিফল্ট' এর চেয়ে আরও জটিল কিছু ব্যবহারের সিদ্ধান্ত নেওয়ার জন্য ইউটিলিটির মূল্যায়ন এবং এই মডেলটি কী উদ্দেশ্যে তৈরি করা হয়েছে তার একটি শক্তিশালী ধারণা প্রয়োজন।
অতিথি

2
আপনি বাইস্রেগ ফাংশন {প্যাকেজ বিএমএ into সন্ধান করতে চাইতে পারেন} দ্রষ্টব্য যে এটির সঠিকভাবে কাজ করার জন্য আপনার একটি সম্পূর্ণ-কেস ডেটাসেট দরকার। আমি এটি মডেল নির্বাচনের জন্য অত্যন্ত দরকারী বলে মনে করি।
ডমিনিক কম্টোইস

1
@ গয়েস্ট: আচ্ছা, নিয়মিতকরণের পরামিতিটি যে পদ্ধতিতে নির্বাচন করা হয়েছে তার উপর এটি খুব নির্ভর করে। প্রকৃতপক্ষে, নির্দিষ্ট শাসন ব্যবস্থায়, লাসোর একটি নির্বাচনী পরামিতিগুলির উপর প্রবণতা রয়েছে (প্রমাণযোগ্য) । ওপি জিজ্ঞাসা করেছে "আমি চাই কেবলমাত্র 9 টি ভেরিয়েবলগুলির মধ্যে কোনটি ভেরিয়েবলের মধ্যে সত্যতা পরিবর্তিত করছে Score" তা বুঝতে সক্ষম হ'ল এটি আমার এই বাক্য যা আমি অতিরিক্ত মাত্রায় দৃষ্টি নিবদ্ধ করেছিলাম। দৃ strong় সহপাঠের উপস্থিতিতে লাসো কমপক্ষে ওপি'র মন্তব্যের আরও কঠোর ব্যাখ্যায় সেটিকে সাহায্য করবে না।
কার্ডিনাল

উত্তর:


14

প্রথমে, এই সমস্যার জন্য খুব ভাল সংস্থান হ'ল টি। কিথ, একাধিক রিগ্রেশন এবং তার বাইরে। পথের মডেলিং এবং ভেরিয়েবল নির্বাচন সম্পর্কে বইটিতে প্রচুর পরিমাণে উপাদান রয়েছে এবং আমি মনে করি আপনি সেখানে আপনার প্রশ্নের সুনির্দিষ্ট উত্তর পেয়ে যাবেন।

মাল্টিকোলাইনারিটি সম্বোধনের একটি উপায় হ'ল ভবিষ্যদ্বাণীকারীদের কেন্দ্র করে নেওয়া, এটি প্রতিটি মান থেকে একটি সিরিজের গড়কে বিয়োগ করে। যখন ডেটা অত্যধিক প্রান্তিক থাকে তখন রিজ রিগ্রেশনও ব্যবহার করা যেতে পারে। অবশেষে অনুক্রমিক সংক্ষিপ্ত বিবরণী ভবিষ্যদ্বাণীকারীদের মধ্যে সময় অনুক্রমের সময় ক্রম বিশ্লেষণের সাথে একযোগে কারণ-প্রভাব সম্পর্কগুলি বুঝতে সহায়তা করে।

সমস্ত 9 ভেরিয়েবল কি সমান্তরালতা দেখায়? নির্ণয়ের জন্য আপনি কোহেন 2003 বৈকল্পিক মূল্যস্ফীতি ফ্যাক্টরটি ব্যবহার করতে পারেন। একটি ভিআইএফ মান> = 10 উচ্চ তাত্পর্য এবং স্ফীত মানীয় ত্রুটিগুলি নির্দেশ করে। আমি বুঝেছি আপনি ভবিষ্যদ্বাণীকারী এবং ফলাফলের মধ্যে কারণ-সম্পর্কের সম্পর্কের বিষয়ে আরও আগ্রহী। যদি তা না হয় তবে বহু-বর্ণা্যতা পূর্বাভাসের জন্য গুরুতর সমস্যা হিসাবে বিবেচিত হয় না, কারণ আপনি সেই সময় আপনার ভবিষ্যদ্বাণীদের যুক্ত করে তৈরি করা মডেলগুলির বিরুদ্ধে এমএই পরীক্ষা করে নিশ্চিত করতে পারেন sample যদি আপনার ভবিষ্যদ্বাণীকারীদের মধ্যে প্রান্তিক পূর্বাভাস শক্তি থাকে তবে আপনি দেখতে পাবেন যে মডেল মাল্টিকোলাইনারিটির উপস্থিতিতেও এমএই হ্রাস পাচ্ছে।


16

কারণ কোন ভেরিয়েবলগুলি নামা উচিত তা নির্ধারণ করা এত কঠিন, প্রায়শই ভেরিয়েবলগুলি না ফেলে রাখাই ভাল। এই লাইন ধরে এগিয়ে যাওয়ার দুটি উপায় হ'ল (1) ডেটা হ্রাস পদ্ধতিটি ব্যবহার করুন (উদাহরণস্বরূপ, ভেরিয়েবল ক্লাস্টারিং বা মূল উপাদানগুলি) এবং পৃথক ভেরিয়েবলের পরিবর্তে মডেলটিতে সংক্ষিপ্ত স্কোর রাখুন এবং (2) সমস্ত ভেরিয়েবলগুলিকে মডেলটিতে রাখুন তবে পরীক্ষা করেন না প্রতিযোগী ভেরিয়েবলের প্রভাবগুলির জন্য এক ভেরিয়েবলের অ্যাডজাস্ট করার জন্য। (২) এর জন্য, প্রতিযোগী ভেরিয়েবলগুলির খণ্ড পরীক্ষা শক্তিশালী কারণ কলিনারি ভেরিয়েবলগুলি স্বতন্ত্রতা সংস্থার পরীক্ষার সামগ্রিক একাধিক ডিগ্রীতে যোগ দেয়, যখন আপনি পৃথকভাবে ভেরিয়েবল পরীক্ষা করেন তখন একে অপরের বিরুদ্ধে প্রতিযোগিতা না করে।


আপনি যদি সহজেই ব্যাখ্যা করতে পারেনand put summary scores into the model
এসআইস্লাম

1
আমার কোর্স নোটগুলি biostat.mc.vanderbilt.edu/rms এ বিস্তারিত আলোচনা করেছে
ফ্রাঙ্ক হ্যারেল

1

আপনি যদি উচ্চ কোলাইনারিটির উপস্থিতিতে পরিবর্তনশীল নির্বাচন পরিচালনা করতে চান তবে আমি l0ara প্যাকেজটি সুপারিশ করতে পারি , যা একটি পুনরাবৃত্তীয় অভিযোজক রিজ পদ্ধতিটি ব্যবহার করে L0 দন্ডিত জিএলএম ফিট করে । যেহেতু এই পদ্ধতিটি চূড়ান্তভাবে রিজকে নিয়মিত রেজিস্ট্রেশনের উপর ভিত্তি করে তৈরি করা হয়েছে, এটি কোলিনারিটির সাথে খুব ভালভাবে মোকাবিলা করতে পারে এবং আমার অনুকরণে এটি খুব কম মিথ্যা ধনাত্মকতা তৈরি করেছে যখন এখনও লাসো, ইলাস্টিক নেট বা অভিযোজিত ল্যাসো এর সাথে তুলনা করে দুর্দান্ত ভবিষ্যতবাণী পারফরম্যান্স দেয়। বিকল্পভাবে, আপনি L0Learn প্যাকেজটিও দেখতে পারেনএকটি L0 এবং L2 জরিমানার সংমিশ্রণ সহ। এল 2 জরিমানা তারপরে স্বল্পতা (অর্থাত্ ছোট মডেলগুলি) সমর্থন করে যখন এল 2 জরিমানা সহ-প্রবণতা নিয়মিত করে। ইলাস্টিক নেট (যা এল 1 এবং এল 2 পেনাল্টির সংমিশ্রণ ব্যবহার করে) প্রায়শই পরামর্শ দেওয়া হয়, তবে আমার পরীক্ষায় এই উপায়ে আরও মিথ্যা ধনাত্মকতা তৈরি হয়, এর সাথে সহগগুলি ভারী পক্ষপাতদুষ্ট হবে। আপনি যদি এর পরিবর্তে L0 দণ্ডিত পদ্ধতি ব্যবহার করেন তবে এই পক্ষপাতটি আপনি মুক্তি পেতে পারেন (ওরফে সেরা উপসেট) - এটি একটি তথাকথিত ওরাকল অনুমানকারী, যা একই সাথে সামঞ্জস্যপূর্ণ এবং নিরপেক্ষ প্যারামিটার সহগগুলি অর্জন করে। নমুনা পূর্বাভাসের কর্মক্ষমতা থেকে সর্বোত্তমটি দেওয়ার জন্য এই সমস্ত পদ্ধতির নিয়মিতকরণ পরামিতিগুলি ক্রস বৈধকরণের মাধ্যমে অনুকূলিত করা দরকার to আপনি যদি নিজের প্যারামিটারগুলিতে তাত্পর্য স্তর এবং আত্মবিশ্বাসের অন্তর পেতে চান তবে আপনি ননপ্যারমেট্রিক বুটস্ট্র্যাপিংয়ের মাধ্যমে এটিও করতে পারেন।

l0araইলাস্টিক নেট এর মতো (কখনও কখনও ভাঙা অ্যাডাপটিভ রিজ হিসাবে পরিচিত) এর পুনরাবৃত্তীয় অভিযোজিত রিজ অ্যালগরিদমটিতে একটি গ্রুপিং এফেক্ট থাকে, যার ফলে এটি আপনার মডেলটিতে প্রবেশের সাথে সাথে গ্রুপগুলিতে অত্যন্ত সংযুক্ত ভেরিয়েবলগুলি নির্বাচন করতে পারে। এটি অর্থবোধ করে - উদাহরণস্বরূপ যদি আপনার মডেলটিতে দুটি কাছাকাছি-কলিনারি ভেরিয়েবল থাকে তবে এটি উভয়ের উপরেই সমানভাবে প্রভাব বিভক্ত করবে।

আপনি যদি অনুপাতের ডেটা বিশ্লেষণ করে থাকেন তবে আপনি লজিস্টিক রিগ্রেশন মডেল বিটিডব্লু ব্যবহার করা থেকে ভাল - l0araপ্যাকেজটি আপনাকে এল0 জরিমানার সাথে মিলিয়ে তা করতে দেয়; L0Learnপ্যাকেজটির জন্য এটি শীঘ্রই সমর্থন করা হবে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.