টি-স্ট্যাটিস্টিকের কোনও বৈশিষ্ট্যের ভবিষ্যদ্বাণীমূলক দক্ষতা সম্পর্কে কিছু না বলার পাশে থাকতে পারে এবং সেগুলি ভবিষ্যদ্বাণীকে স্ক্রিন করতে বা ভবিষ্যদ্বাণীকারীদের একটি ভবিষ্যদ্বাণীমূলক মডেল হিসাবে ব্যবহার করতে দেওয়া উচিত নয়।
পি-মানগুলি বলছে যে উত্সাহিত বৈশিষ্ট্যগুলি গুরুত্বপূর্ণ
আর-তে নিম্নলিখিত দৃশ্যের সেটআপটি বিবেচনা করুন Let's আসুন দুটি ভেক্টর তৈরি করুন, প্রথমটি হ'ল র্যান্ডম কয়েনটি উল্টে:5000
set.seed(154)
N <- 5000
y <- rnorm(N)
দ্বিতীয় ভেক্টর হয় পর্যবেক্ষণ, প্রতিটি এলোমেলোভাবে এক নির্ধারিত 500 সমানভাবে আকারের র্যান্ডম ক্লাস:5000500
N.classes <- 500
rand.class <- factor(cut(1:N, N.classes))
y
প্রদত্ত পূর্বাভাসের জন্য এখন আমরা একটি রৈখিক মডেল ফিট করি rand.classes
।
M <- lm(y ~ rand.class - 1) #(*)
সঠিক কোফিসিয়েন্টস সব জন্য মান শূন্য হয়, তাদের কেউ আছে কোন ভবিষ্যদ্বাণীপূর্ণ শক্তি। কোনটিই নয় - এর মধ্যে অনেকগুলি 5% স্তরে তাৎপর্যপূর্ণ
ps <- coef(summary(M))[, "Pr(>|t|)"]
hist(ps, breaks=30)
প্রকৃতপক্ষে, আমাদের কোনও ভবিষ্যদ্বাণীপূর্ণ শক্তি না থাকা সত্ত্বেও তাদের প্রায় 5% অবশ্যই তাৎপর্যপূর্ণ হওয়ার প্রত্যাশা করা উচিত!
পি-মানগুলি গুরুত্বপূর্ণ বৈশিষ্ট্যগুলি সনাক্ত করতে ব্যর্থ হয়
এখানে অন্য দিকের একটি উদাহরণ।
set.seed(154)
N <- 100
x1 <- runif(N)
x2 <- x1 + rnorm(N, sd = 0.05)
y <- x1 + x2 + rnorm(N)
M <- lm(y ~ x1 + x2)
summary(M)
আমি দু'জন পরস্পর সম্পর্কিত ভবিষ্যদ্বাণী তৈরি করেছি , প্রত্যেকটিই ভবিষ্যদ্বাণীপূর্ণ শক্তির সাথে।
M <- lm(y ~ x1 + x2)
summary(M)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.1271 0.2092 0.608 0.545
x1 0.8369 2.0954 0.399 0.690
x2 0.9216 2.0097 0.459 0.648
পি-মানগুলি উভয় ভেরিয়েবলের ভবিষ্যদ্বাণীপূর্ণ শক্তি সনাক্ত করতে ব্যর্থ হয় কারণ পারস্পরিক সম্পর্কটি মডেলটি ডেটা থেকে পৃথক দুটি সহগকে কীভাবে অনুমান করতে পারে তার উপর নির্ভর করে affects
ভেরিয়েবলের ভবিষ্যদ্বাণীমূলক শক্তি বা গুরুত্ব সম্পর্কে বলার জন্য অনুমানমূলক পরিসংখ্যান নেই। এগুলি সেভাবে ব্যবহার করা এই পরিমাপগুলির অপব্যবহার। ভবিষ্যদ্বাণীপূর্ণ লিনিয়ার মডেলগুলিতে পরিবর্তনশীল নির্বাচনের জন্য আরও অনেক ভাল বিকল্প রয়েছে, ব্যবহার বিবেচনা করুন glmnet
।
(*) নোট করুন যে আমি এখানে একটি ইন্টারসেপ্ট ছাড়ছি, সুতরাং সমস্ত তুলনা শূন্যের বেসলাইন, প্রথম শ্রেণির গ্রুপ মানে নয়। এটি ছিল @ হোবারের পরামর্শ।
যেহেতু এটি মন্তব্যে খুব আকর্ষণীয় আলোচনার নেতৃত্ব দিয়েছে, মূল কোডটি ছিল
rand.class <- factor(sample(1:N.classes, N, replace=TRUE))
এবং
M <- lm(y ~ rand.class)
যা নিম্নলিখিত হিস্টোগ্রামের দিকে নিয়ে যায়