প্রাকৃতিক (অর্থাত্ সীমাবদ্ধ) কিউবিক স্প্লাইস ব্যবহার করার সময় তৈরি করা বেস ফাংশনগুলি অত্যন্ত কোলাইনারি এবং যখন কোনও রিগ্রেশন ব্যবহার করা হয় তখন মনে হয় বহু উচ্চতর ভিআইএফ (ভেরিয়েন্স মুদ্রাস্ফীতি ফ্যাক্টর) পরিসংখ্যান তৈরি হয়, যা বহুবিধ লাইন সংকেত দেয়। পূর্বাভাসের উদ্দেশ্যে যখন কোনও মডেলটির বিষয়টি বিবেচনা করা হচ্ছে, এটি কি কোনও সমস্যা? দেখে মনে হচ্ছে স্প্লাইন নির্মাণের প্রকৃতির কারণে এটি সর্বদা ক্ষেত্রেই থাকবে।
এখানে আর এর একটি উদাহরণ রয়েছে:
library(caret)
library(Hmisc)
library(car)
data(GermanCredit)
spl_mat<-rcspline.eval(GermanCredit$Amount, nk=5, inclx=TRUE) #natural cubic splines with 5 knots
class<-ifelse(GermanCredit$Class=='Bad',1,0) #binary target variable
dat<-data.frame(cbind(spl_mat,class))
cor(spl_mat)
OUTPUT:
x
x 1.0000000 0.9386463 0.9270723 0.9109491
0.9386463 1.0000000 0.9994380 0.9969515
0.9270723 0.9994380 1.0000000 0.9989905
0.9109491 0.9969515 0.9989905 1.0000000
mod<-glm(class~.,data=dat,family=binomial()) #model
vif(mod) #massively high
OUTPUT:
x V2 V3 V4
319.573 204655.833 415308.187 45042.675
হালনাগাদ:
আমি ডঃ হ্যারেলের কাছে পৌঁছেছি, আর (এবং অন্যান্য) -এর হ্মিস্ক প্যাকেজের লেখক এবং তিনি প্রতিক্রিয়া জানিয়েছিলেন যে যতক্ষণ অ্যালগোরিদম রূপান্তরিত হয় (যেমন লজিস্টিক রিগ্রেশন) এবং মান ত্রুটিগুলি বিস্ফোরিত হয়নি (মার্টেন নীচে বলেছিলেন) - এবং মডেলটি ভাল ফিট করে, সর্বোত্তমভাবে একটি টেস্ট সেটে দেখানো হয়, তারপরে এই কোলাইনারিটি নিয়ে কোনও সমস্যা নেই।
আরও, তিনি বলেছিলেন (এবং এটি তাঁর দুর্দান্ত রেগ্রেশন মডেলিং স্ট্র্যাটেজিজ বইয়ের পৃষ্ঠা 65 এ উপস্থিত রয়েছে ) যে প্রতিবন্ধী ঘন স্প্লাইনের মতো বীজগণিত ফ্যাশনে নির্মিত ভেরিয়েবলের মধ্যে একত্রিকরণ কোনও বিষয় নয় কারণ বহুবস্তুতা কেবল তখনই গুরুত্বপূর্ণ যখন সেই কোলাইনারিটি নমুনা থেকে নমুনায় পরিবর্তিত হয়।
rcsgen
স্টাটা কমান্ডটি গ্রাম-শ্মিট অরথোগোনালাইজন ব্যবহার করে)