মাল্টিকোলাইনারিটির সাথে ডিল করা


13

আমি শিখেছি যে প্যাকেজ vif()পদ্ধতিটি ব্যবহার করে car, আমরা একটি মডেলের ইনপুটগুলির বহুবিধ লাইন ডিগ্রি গণনা করতে পারি। উইকিপিডিয়া থেকে , vifমানটি যদি এর চেয়ে বেশি হয় 5তবে আমরা বিবেচনা করতে পারি যে ইনপুটটি বহুবিধ লাইন সমস্যাটি ভুগছে। উদাহরণস্বরূপ, আমি lm()পদ্ধতি ব্যবহার করে একটি লিনিয়ার রিগ্রেশন মডেল বিকাশ করেছি এবং নীচে vif()হিসাবে দিচ্ছি । আমরা দেখতে পাচ্ছি, ইনপুট ub, lbএবং tbmulticollinearity ভুগছে।

 vif(lrmodel)
     tb        ub        lb          ma     ua        mb         sa     sb 
 7.929757 50.406318 30.826721  1.178124  1.891218  1.364020  2.113797  2.357946

বহুবিধ লাইন সমস্যাটি এড়াতে এবং এইভাবে আমার মডেলটিকে আরও শক্তিশালী করার জন্য, আমি ubএবং এর মধ্যে ইন্টারঅ্যাকশন নিয়েছি lbএবং এখন নতুন মডেলের ভিএফ সারণিটি নিম্নরূপ:

   tb     ub:lb      ma       mb      sa        sb     ua
1.763331 1.407963 1.178124 1.327287 2.113797 1.860894 1.891218

R^2মানগুলির মধ্যে খুব বেশি পার্থক্য নেই এবং পাশাপাশি উপরের দুটি ক্ষেত্রে ওয়ান-লিভ-আউট সিভি পরীক্ষার ত্রুটিগুলির মধ্যে খুব বেশি পার্থক্য নেই।

আমার প্রশ্নগুলি হ'ল:

  1. উপরে বর্ণিত ইন্টারঅ্যাকশন গ্রহণ করে মাল্টিকোলাইনারিটি সমস্যাটি এড়ানো ভাল?

  2. উপরোক্ত ভিএফ পদ্ধতির ফলাফলের সাথে তুলনা করে মাল্টিকোলাইনারিটি সমস্যা উপস্থাপনের জন্য কি কোনও সুন্দর উপায় আছে?

আমাকে আপনার পরামর্শ প্রদান করুন।

ধন্যবাদ।


আপনার মডেল লগ-লগ রিগ্রেশন (তাদের সাথে ঠিক আছে হিসাবে সীমাবদ্ধতা হিসাবে মিথস্ক্রিয়া)? উইকিতে মাল্টিকোলাইনারিটি ইস্যু সম্পর্কিত আরও একটি নিবন্ধ রয়েছে en.wikedia.org/wiki/Multicollinearity এছাড়াও আমি এই সাইটে মাল্টিকোলাইনারিটি ট্যাগটি অন্বেষণ করার পরামর্শ দিচ্ছি, মনে হয় এটি প্রায়শই জিজ্ঞাসিত প্রশ্ন বলে মনে হয়।
দিমিত্রিজ সেলভ

@ দিমিত্রিজ সেলভ: আপনাকে ধন্যবাদ না, আমার মডেলটি লগ ছাড়াই সহজ লিনিয়ার রিগ্রেশন ...
সমরাস

উত্তর:


11

আপনি মিথষ্ক্রিয়া শব্দটি অন্তর্ভুক্ত বলে মনে হচ্ছে ub:lb, কিন্তু না ubএবং lbপৃথক ভবিষ্যতবক্তা নিজেদের। এটি তথাকথিত "প্রান্তিকতার নীতি" লঙ্ঘন করবে যা জানিয়েছে যে উচ্চ-আদেশের শর্তাবলী কেবল নিম্ন-আদেশের শর্তাবলীতে উপস্থিত ভেরিয়েবলগুলি অন্তর্ভুক্ত করা উচিত ( শুরু করার জন্য উইকিপিডিয়া )। কার্যকরভাবে, আপনি এখন একজন ভবিষ্যদ্বাণীকারীকে অন্তর্ভুক্ত করছেন যা কেবলমাত্র উপাদান উপাদান হিসাবে ubএবং lb

VIFj হ'ল যেখানে আপনি যখন আপনার আসল পূর্বাভাসের চলকের সাথে রিগ্রেশন চালান তখন হল মান সমস্ত বাকী ভবিষ্যদ্বাণীকারী দ্বারা নির্ধারিত মানদণ্ড হিসাবে (এটি , ভবিষ্যদ্বাণীকের পারস্পরিক সম্পর্ক মেট্রিক্সের বিপরীত) এর -th তির্যক উপাদানও রয়েছে )। 50 এর একটি ভিআইএফ-মান এটি ইঙ্গিত করে যে আপনি অন্যান্য পূর্বাভাসকারীদের সাথে ভবিষ্যদ্বাণী করার সময় .98 এর একটি get পান যা ইঙ্গিত করে যে এটি প্রায় সম্পূর্ণ অপ্রয়োজনীয় (একইভাবে , 2। .97)।11Rj2Rj2R2jjRx1R2ubublbR2

আমি ভবিষ্যদ্বাণীকারীদের মধ্যে সমস্ত যুগলভাবে সম্পর্ক স্থাপন শুরু করব এবং কোন ভেরিয়েবলগুলি পূর্বাভাস দেয় ubএবং lbতা দেখার জন্য পূর্বোক্ত রেজিস্ট্রেশনগুলি চালিত করব এবং অযথা সহজে ব্যাখ্যা করা হয়েছে কিনা তা দেখার জন্য। যদি তা হয় তবে আপনি অনর্থক ভবিষ্যদ্বাণীকারীদের অপসারণ করতে পারেন। আপনি রিজ রিগ্রেশনও দেখতে পারেন ( আর এর lm.ridge()প্যাকেজ থেকে MASS)।

আরও উন্নত মাল্টিকোল্লাইনারিটি ডায়াগনস্টিকগুলি ইগেনুয়ালু-কাঠামো ব্যবহার করে যেখানে রিগ্রেশনটির ডিজাইন ম্যাট্রিক্স (যেমন, কলাম-ভেক্টর হিসাবে সমস্ত ভবিষ্যদ্বাণীকারী)। শর্তটি হ'ল যেখানে এবং the বৃহত্তম এবং সবচেয়ে ছোট (( ) । আর এ, আপনি ব্যবহার করতে পারেন , যেখানে মডেলটি সাধারণত স্ট্যান্ডার্ডযুক্ত ভেরিয়েবলগুলি ব্যবহার করে।XtXXκλmaxλminλmaxλmin0XtXkappa(lm(<formula>))lm()

জ্যামিতিকভাবে, আপনাকে ভবিষ্যদ্বাণীকারীদের দ্বারা গঠিত ডেটা মেঘের আকার সম্পর্কে ধারণা দেয়। ২ টি ভবিষ্যদ্বাণী নিয়ে স্ক্যাটারপ্লট 2 প্রধান অক্ষ সহ একটি উপবৃত্তের মতো দেখতে পারে look আপনাকে জানায় যে উপবৃত্তটি কতটা "সমতল", অর্থাৎ বৃহত্তম অক্ষের দৈর্ঘ্যের ক্ষুদ্রতম মূল অক্ষের অনুপাতের একটি পরিমাপ। 3 পূর্বাভাসকারী আপনার সাথে সিগার-আকৃতি এবং 3 টি প্রধান অক্ষ থাকতে পারে। আপনার ডেটা ক্লাউডটি "চাটুকার" কিছু দিকের দিকে রয়েছে, যখন এক সাথে নেওয়া হয় তখন তত বেশি রিয়ন্ডাল ভেরিয়েবল হয়।κκ

(আমি ২০ এরও কম শুনেছি) এর অবাস্তব মানগুলির জন্য থাম্বের কিছু নিয়ম রয়েছে । তবে পরামর্শ দিন যে ডেটা ট্রান্সফর্মেশনের অধীনে নয় যা কেবলমাত্র ভেরিয়েবলের ইউনিট পরিবর্তন করে - যেমন মানককরণ standard এই Vif অসদৃশ হল: আপনি একই ফল দেবে (যতদিন সেখানে মডেল গুণনশীল পদ নয়), কিন্তু ও প্রায় নিশ্চয় ভিন্ন হবে।κκvif(lm(y ~ x1 + x2))vif(lm(scale(y) ~ scale(x1) + scale(x2)))kappa(lm(y ~ x1 + x2))kappa(lm(scale(y) ~ scale(x1) + scale(x2)))


প্রথম নোটটি সম্পর্কিত: মাল্টিভারিয়েট মডেলের জন্য এটি কেবল ইন্টারঅ্যাকশন শব্দটি রেখে যাওয়া ঠিক বলে মনে হচ্ছে, কারণ পরবর্তীকালের অর্থ হ'ল আপনি কফগুলি সীমাবদ্ধ করেছেন ub lb( ) , তবে একটি সাধারণ লিনিয়ার রিগ্রেশন মডেলটির জন্য এটি যেমন আপনি দেখিয়েছিলেন (+1) ^ _ the উপায় দ্বারা lb - নিম্নতর আবদ্ধ, ub - উপরের আবদ্ধ ?! যদি তাই দুটি এর পার্থক্য তৈরি করে তবে এটি সম্ভবত আরও ভাল রূপান্তর। ইউ বি - এল বিalogub+aloglb=alogublbublb
দিমিত্রিজ সেলভ

@ দিমিত্রিজ: না, ub + lb + sb = 100.
সমরাস

মাল্টিকোলাইনারিটির জন্য কোনও দুর্দান্ত গ্রাফিকাল উপস্থাপনা আছে কি? আর দয়া করে আমাকে প্রস্তাব দিন যে থের জন্য কোনও পদ্ধতি আছে is
সমরাস

2
@kkp আমি এখনই কেবল ভাবতে পারি কেবলমাত্র সেগুলি হ'ল: স্ক্রেটারপ্লট pairs()ম্যাট্রিক্সের জন্য ভবিষ্যদ্বাণীকারীদের সমস্ত যুগল বিতরণ দেখানো। প্যাকেজটি scatterplot3d3 ভেরিয়েবলের স্ক্যাটারপ্ল্লট কল্পনা করতে ব্যবহার করা যেতে পারে। উপবৃত্তাকার অঙ্কনের জন্য এই উত্তরটি দেখুন যার অক্ষ-অনুপাত দ্বিমুখী ক্ষেত্রে সমান । আপনি প্যাকেজটি যাচাই করতে পারেন যা অতিরিক্ত মাল্টিকোলাইনারিটি ডায়াগোনস্টিক্স, সম্ভবত গ্রাফিক্স সরবরাহ করে। κ2perturb
কারাকাল

1

পরিবর্তনশীল বিবেচনার সময় আপনার পি-মানটিও বিবেচনা করা উচিত।

  1. যদি পি-মানটি খুব কম হয় (পি <0.05) তবে ভিআইএফ উচ্চ (> 5) হয় তবে আপনার অন্যান্য তুচ্ছ বিবেচনা করা উচিত consider এবং আপনার মডেল পুনর্নির্মাণ।
  2. আপনার যদি পি-মান এবং ভিআইএফ উভয়ই উচ্চ থাকে তবে এই পরিবর্তনশীল তুচ্ছ হবে।
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.