পি-মানের উপর ভিত্তি করে বৈশিষ্ট্যগুলি নির্বাচন করা কি ভুল?


12

বৈশিষ্ট্যগুলি কীভাবে নির্বাচন করবেন সে সম্পর্কে বেশ কয়েকটি পোস্ট রয়েছে। পদ্ধতির একটি টি-পরিসংখ্যানের ভিত্তিতে বৈশিষ্ট্যটির গুরুত্ব বর্ণনা করে। আর মধ্যে স্ট্যান্ডার্ডযুক্ত বৈশিষ্ট্য varImp(model)সহ রৈখিক মডেলটিতে প্রয়োগ করা প্রতিটি মডেলের প্যারামিটারের জন্য টি-স্ট্যাটিস্টিকের নিখুঁত মান ব্যবহৃত হয়। সুতরাং, মূলত আমরা এর টি-পরিসংখ্যানের উপর ভিত্তি করে একটি বৈশিষ্ট্য চয়ন করি, যার অর্থ সহগ কতটা নির্ভুল। তবে আমার সহগের সুনির্দিষ্টতা কি আমাকে বৈশিষ্ট্যের ভবিষ্যদ্বাণীপূর্ণ দক্ষতা সম্পর্কে কিছু বলবে?

এটি কি ঘটতে পারে যে আমার বৈশিষ্ট্যে কম টি-স্ট্যাটাসস্টিক রয়েছে তবে মডেলটির যথার্থতাটি এখনও উন্নত (বলতে দিন)? যদি হ্যাঁ, কেউ টি-পরিসংখ্যানের ভিত্তিতে ভেরিয়েবলগুলি বাদ দিতে চান? বা অ-গুরুত্বপূর্ণ ভেরিয়েবলগুলির ভবিষ্যদ্বাণীমূলক দক্ষতাগুলি পরীক্ষা করার জন্য এটি কেবল একটি সূচনা পয়েন্ট দেয়?


3
গড়ের এক-নমুনা পরীক্ষার জন্য, টি স্ট্যাটিস্টিক হ'ল নমুনা গড়টি অনুমিত স্ট্যান্ডার্ড ত্রুটি (নমুনা আকারের বর্গমূল দিয়ে বিভক্ত নমুনা স্ট্যান্ডার্ড বিচ্যুতি) দ্বারা বিভক্ত। সেই পরিসংখ্যান নিজেই কোনও বিশেষ অনুমানের উপর নির্ভর করে না । যে পরিসংখ্যাত থেকে পি মান আহরিত নেই একটি হাইপোথিসিস উপর নির্ভর করে।
ড্যান হিক্স

@ ড্যানহিক্স আমি আমার প্রশ্ন সম্পাদনা করেছি
অ্যালিনা

আমি ক্যারেটের সাথে খুব বেশি পরিচিত নই, তবে মনে varImp()হয় এটি কোনও তথ্যবহুল বা ডায়াগনস্টিক ফাংশন এবং বৈশিষ্ট্য নির্বাচন বা নির্মূলকরণের জন্য সরাসরি ব্যবহৃত হয় না to
ডেভিড 25272

উত্তর:


11

টি-স্ট্যাটিস্টিকের কোনও বৈশিষ্ট্যের ভবিষ্যদ্বাণীমূলক দক্ষতা সম্পর্কে কিছু না বলার পাশে থাকতে পারে এবং সেগুলি ভবিষ্যদ্বাণীকে স্ক্রিন করতে বা ভবিষ্যদ্বাণীকারীদের একটি ভবিষ্যদ্বাণীমূলক মডেল হিসাবে ব্যবহার করতে দেওয়া উচিত নয়।

পি-মানগুলি বলছে যে উত্সাহিত বৈশিষ্ট্যগুলি গুরুত্বপূর্ণ

আর-তে নিম্নলিখিত দৃশ্যের সেটআপটি বিবেচনা করুন Let's আসুন দুটি ভেক্টর তৈরি করুন, প্রথমটি হ'ল র্যান্ডম কয়েনটি উল্টে:5000

set.seed(154)
N <- 5000
y <- rnorm(N)

দ্বিতীয় ভেক্টর হয় পর্যবেক্ষণ, প্রতিটি এলোমেলোভাবে এক নির্ধারিত 500 সমানভাবে আকারের র্যান্ডম ক্লাস:5000500

N.classes <- 500
rand.class <- factor(cut(1:N, N.classes))

yপ্রদত্ত পূর্বাভাসের জন্য এখন আমরা একটি রৈখিক মডেল ফিট করি rand.classes

M <- lm(y ~ rand.class - 1) #(*)

সঠিক কোফিসিয়েন্টস সব জন্য মান শূন্য হয়, তাদের কেউ আছে কোন ভবিষ্যদ্বাণীপূর্ণ শক্তি। কোনটিই নয় - এর মধ্যে অনেকগুলি 5% স্তরে তাৎপর্যপূর্ণ

ps <- coef(summary(M))[, "Pr(>|t|)"]
hist(ps, breaks=30)

পি-মানগুলির হিস্টোগ্রাম

প্রকৃতপক্ষে, আমাদের কোনও ভবিষ্যদ্বাণীপূর্ণ শক্তি না থাকা সত্ত্বেও তাদের প্রায় 5% অবশ্যই তাৎপর্যপূর্ণ হওয়ার প্রত্যাশা করা উচিত!

পি-মানগুলি গুরুত্বপূর্ণ বৈশিষ্ট্যগুলি সনাক্ত করতে ব্যর্থ হয়

এখানে অন্য দিকের একটি উদাহরণ।

set.seed(154)
N <- 100
x1 <- runif(N)
x2 <- x1 + rnorm(N, sd = 0.05)
y <- x1 + x2 + rnorm(N)

M <- lm(y ~ x1 + x2)
summary(M)

আমি দু'জন পরস্পর সম্পর্কিত ভবিষ্যদ্বাণী তৈরি করেছি , প্রত্যেকটিই ভবিষ্যদ্বাণীপূর্ণ শক্তির সাথে।

M <- lm(y ~ x1 + x2)
summary(M)

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)   0.1271     0.2092   0.608    0.545
x1            0.8369     2.0954   0.399    0.690
x2            0.9216     2.0097   0.459    0.648

পি-মানগুলি উভয় ভেরিয়েবলের ভবিষ্যদ্বাণীপূর্ণ শক্তি সনাক্ত করতে ব্যর্থ হয় কারণ পারস্পরিক সম্পর্কটি মডেলটি ডেটা থেকে পৃথক দুটি সহগকে কীভাবে অনুমান করতে পারে তার উপর নির্ভর করে affects

ভেরিয়েবলের ভবিষ্যদ্বাণীমূলক শক্তি বা গুরুত্ব সম্পর্কে বলার জন্য অনুমানমূলক পরিসংখ্যান নেই। এগুলি সেভাবে ব্যবহার করা এই পরিমাপগুলির অপব্যবহার। ভবিষ্যদ্বাণীপূর্ণ লিনিয়ার মডেলগুলিতে পরিবর্তনশীল নির্বাচনের জন্য আরও অনেক ভাল বিকল্প রয়েছে, ব্যবহার বিবেচনা করুন glmnet

(*) নোট করুন যে আমি এখানে একটি ইন্টারসেপ্ট ছাড়ছি, সুতরাং সমস্ত তুলনা শূন্যের বেসলাইন, প্রথম শ্রেণির গ্রুপ মানে নয়। এটি ছিল @ হোবারের পরামর্শ।

যেহেতু এটি মন্তব্যে খুব আকর্ষণীয় আলোচনার নেতৃত্ব দিয়েছে, মূল কোডটি ছিল

rand.class <- factor(sample(1:N.classes, N, replace=TRUE))

এবং

M <- lm(y ~ rand.class)

যা নিম্নলিখিত হিস্টোগ্রামের দিকে নিয়ে যায়

পি-মানগুলির স্কিউড হিস্টোগ্রাম


2
হুম, এই পি-মান বিতরণ কেন অভিন্ন নয়?
অ্যামিবা বলছেন মনিকাকে

4
বাহ, আপনি বীজ নম্বরটি কীভাবে বেছে নিয়েছেন? প্রায় অভিন্ন PS এ অন্য কোনও ফলাফল ...
psychOle

3
আমি এই ধরণের জিনিসটির জন্য সর্বদা একই বীজ ব্যবহার করার চেষ্টা করি: en.wikedia.org/wiki/154_( অ্যালবাম)
ম্যাথু ড্রুরি

9
আপনি ভুল পরীক্ষা পরিচালনা করছেন: আপনি 499 গ্রুপ মানে প্রথম গ্রুপের সাথে তুলনা করছেন। বীজ 154 এর সাথে প্রথম গ্রুপের গড় 1.18 ... গড় অস্বাভাবিকভাবে বেশি (যা ঘটতে পারে 5 গ্রুপের আকার এত ছোট), তাই অন্যদের বেশিরভাগের উল্লেখযোগ্য নেতিবাচক প্রভাব রয়েছে। মডেল চালিয়ে এটি ঠিক করুন lm(y ~ rand.class - 1)। এটি আপনার সমস্ত মন্তব্য (+1) এর বৈধতা পরিবর্তন করে না। : আরও বেশি বিশ্বাসী হওয়ার উদ্দেশ্যে সামঞ্জস্য বজায় রাখা গ্রুপ মাপrand.class <- cut(1:N, N.classes)
whuber

1
অবশ্যই: / আমি 100% প্রত্যাশিত @ শুভ্রটি নামিয়ে দিয়েছি এবং সম্পূর্ণরূপে পরিষ্কার এবং সুস্পষ্ট এমন কিছু বলতে চাই যা আমি মিস করেছি। আমি এখনই এটি ঠিক করব।
ম্যাথু ড্রুরি

2

টি-পরিসংখ্যানগুলি প্রভাবের আকার এবং নমুনার আকার দ্বারা প্রভাবিত হয়। এটি এমন ক্ষেত্রে হতে পারে যে এফেক্টের আকারটি শূন্য নয় তবে নমুনার আকারটি তাৎপর্যপূর্ণ করে তুলতে যথেষ্ট বড় নয়।

t=(x¯s)n

x¯sn

আপনার ক্ষেত্রে অ-শূন্য প্রভাব সহ যে কোনও বৈশিষ্ট্য কার্যকারিতা উন্নত করবে তবে সেই বৈশিষ্ট্যের পি-মানকে উল্লেখযোগ্য করে তুলতে আপনার কাছে পর্যাপ্ত ডেটা নাও থাকতে পারে।


4
আমি এটি সত্য বলে মনে করি না যে শূন্য-প্রভাব সহ যে কোনও বৈশিষ্ট্য কার্যকারিতা উন্নত করবে। হতে পারে প্রশিক্ষণের ডেটাতে এটি সত্য, তবে এটি অবশ্যই পরীক্ষার তথ্যগুলিতে নয়।
ম্যাথু ড্রুরি

@ ম্যাথিউড্রুরি আপনি কি বলছেন যে আমাদের কাছে নমুনা থেকে জনসংখ্যার পরিমাপ অনুমানের পদ্ধতির অভাব রয়েছে?
টড ডি

না, তবে এটি সত্য যে উদ্দীপনাযুক্ত বৈশিষ্ট্যগুলি এটির ভাল করার জন্য আপনার ক্ষমতাকে হস্তক্ষেপ করতে পারে।
ম্যাথু ড্রুরি
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.