মাল্টিকোলাইনারিটি এবং স্প্লাইসস রিগ্রেশন নিয়ে সমস্যা আছে?


12

প্রাকৃতিক (অর্থাত্ সীমাবদ্ধ) কিউবিক স্প্লাইস ব্যবহার করার সময় তৈরি করা বেস ফাংশনগুলি অত্যন্ত কোলাইনারি এবং যখন কোনও রিগ্রেশন ব্যবহার করা হয় তখন মনে হয় বহু উচ্চতর ভিআইএফ (ভেরিয়েন্স মুদ্রাস্ফীতি ফ্যাক্টর) পরিসংখ্যান তৈরি হয়, যা বহুবিধ লাইন সংকেত দেয়। পূর্বাভাসের উদ্দেশ্যে যখন কোনও মডেলটির বিষয়টি বিবেচনা করা হচ্ছে, এটি কি কোনও সমস্যা? দেখে মনে হচ্ছে স্প্লাইন নির্মাণের প্রকৃতির কারণে এটি সর্বদা ক্ষেত্রেই থাকবে।

এখানে আর এর একটি উদাহরণ রয়েছে:

library(caret)
library(Hmisc)
library(car)
data(GermanCredit)

spl_mat<-rcspline.eval(GermanCredit$Amount,  nk=5, inclx=TRUE) #natural cubic splines with 5 knots

class<-ifelse(GermanCredit$Class=='Bad',1,0) #binary target variable
dat<-data.frame(cbind(spl_mat,class))

cor(spl_mat)

OUTPUT:
              x                              
    x 1.0000000 0.9386463 0.9270723 0.9109491
      0.9386463 1.0000000 0.9994380 0.9969515
      0.9270723 0.9994380 1.0000000 0.9989905
      0.9109491 0.9969515 0.9989905 1.0000000


mod<-glm(class~.,data=dat,family=binomial()) #model

vif(mod) #massively high

OUTPUT:
x         V2         V3         V4 
319.573 204655.833 415308.187  45042.675

হালনাগাদ:

আমি ডঃ হ্যারেলের কাছে পৌঁছেছি, আর (এবং অন্যান্য) -এর হ্মিস্ক প্যাকেজের লেখক এবং তিনি প্রতিক্রিয়া জানিয়েছিলেন যে যতক্ষণ অ্যালগোরিদম রূপান্তরিত হয় (যেমন লজিস্টিক রিগ্রেশন) এবং মান ত্রুটিগুলি বিস্ফোরিত হয়নি (মার্টেন নীচে বলেছিলেন) - এবং মডেলটি ভাল ফিট করে, সর্বোত্তমভাবে একটি টেস্ট সেটে দেখানো হয়, তারপরে এই কোলাইনারিটি নিয়ে কোনও সমস্যা নেই।

আরও, তিনি বলেছিলেন (এবং এটি তাঁর দুর্দান্ত রেগ্রেশন মডেলিং স্ট্র্যাটেজিজ বইয়ের পৃষ্ঠা 65 এ উপস্থিত রয়েছে ) যে প্রতিবন্ধী ঘন স্প্লাইনের মতো বীজগণিত ফ্যাশনে নির্মিত ভেরিয়েবলের মধ্যে একত্রিকরণ কোনও বিষয় নয় কারণ বহুবস্তুতা কেবল তখনই গুরুত্বপূর্ণ যখন সেই কোলাইনারিটি নমুনা থেকে নমুনায় পরিবর্তিত হয়।


1
আপনি সর্বদা উত্পন্ন স্প্লিনগুলি অরথোগোনালাইজ করতে পারেন (উদাহরণস্বরূপ rcsgenস্টাটা কমান্ডটি গ্রাম-শ্মিট অরথোগোনালাইজন ব্যবহার করে)
বোস্কোভিচ

উত্তর:


7

বহুবিধ লাইনারিটি এই জাতীয় ফাংশনটি অনুমান করার সময় সংখ্যাগত সমস্যা দেখা দিতে পারে। এ কারণেই কিছু সংঘবদ্ধ ঘন স্প্লাইচের পরিবর্তে বি-স্প্লিংগুলি (বা সেই থিমের বিভিন্নতা) ব্যবহার করে। সুতরাং, আমি বৃহত্তর সরঞ্জামবক্সে সম্ভাব্যভাবে ব্যবহারযোগ্য একটি সরঞ্জাম হিসাবে সীমাবদ্ধ ঘন স্প্লিকগুলি দেখতে চাই tend


হাই মার্টেন, আপনি যখন সংখ্যাসূচক সমস্যাগুলি বলছেন তখন আপনি কি রূপান্তর বা এরকম উল্লেখ করেন? যদি রিগ্রেশন রূপান্তরিত হয় এবং কোনও টেস্ট সেটে ভালভাবে প্রদর্শিত হয় - আপনি কি পরিস্থিতি কোনও সমস্যা নয় বলে উপসংহারে পৌঁছেছেন?
বি_মিনার

যদি সংখ্যাসূচক সমস্যা থাকে তবে কনভার্সনের অভাব সম্ভবত (তবে প্রয়োজনীয় নয়) ফলাফল। অবাস্তব গুণমানের অনুমান এবং / অথবা অবাস্তবভাবে উচ্চমানের ত্রুটিগুলি অন্যান্য সম্ভাব্য পরিণতি।
মার্টেন বুইস

1
কিউআর পচে যাওয়ার মতো পদ্ধতিগুলি অনেক সাহায্য করেছিল। তবে, আপনি এখনও আধুনিক সফ্টওয়্যারটি ভাঙ্গতে পারেন, এটি করা এখন আরও শক্ত হয়ে উঠেছে।
মার্টেন বুইস

1
এটি কোনও সমস্যা নাও হতে পারে। তবে যদি কোনও সংখ্যাসূচক সমস্যা থাকে scale=TRUEতবে আর rmsপ্যাকেজটিতে কিছু ফিটিং ফাংশনগুলির যুক্তি ফিটিংয়ের আগে সমস্ত কলামকে মানসম্পন্ন করবে এবং এমন কোনও উপায়ে ফিট করার পরে সহকারীর অস্তিত্বহীন করা হবে যাতে ব্যবহারকারীর অ্যাকাউন্টের প্রয়োজন হয় না।
ফ্র্যাঙ্ক হ্যারেল

2
এত স্বতন্ত্র গুণফল এবং মান ত্রুটিগুলি তাকান না। পুরো লাগানো বক্ররেখার দিকে তাকান।
ফ্র্যাঙ্ক হ্যারেল
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.