রিগ্রেশন জন্য ভবিষ্যদ্বাণীকারী নির্বাচন করতে পারস্পরিক সম্পর্ক ম্যাট্রিক্স ব্যবহার করা কি সঠিক?


17

কিছু দিন আগে, আমার একজন মনোবিজ্ঞানী-গবেষক লিনিয়ার রিগ্রেশন মডেলটিতে ভেরিয়েবল নির্বাচন করার জন্য তার পদ্ধতি সম্পর্কে আমাকে বলেছিলেন। আমার ধারণা এটি ভাল নয়, তবে আমার অন্য কাউকে এটি নিশ্চিত করার জন্য জিজ্ঞাসা করা উচিত। পদ্ধতিটি হ'ল:

সমস্ত ভেরিয়েবলের মধ্যে পারস্পরিক সম্পর্ক ম্যাট্রিক্সটি দেখুন (নির্ভরশীল ভেরিয়েবল ওয়াই সহ) এবং সেই ভবিষ্যদ্বাণীকারী এক্সকে বেছে নিন, যা Y এর সাথে সর্বাধিক সম্পর্কযুক্ত।

তিনি কোনও মানদণ্ডের কথা উল্লেখ করেননি। প্রশ্ন: তিনি ঠিক ছিলেন?

[আমি মনে করি যে এই বাছাই পদ্ধতিটি ভুল, কারণ অনেকগুলি কারণে যেমন কোন তত্ত্বটি বলে যে কোন ভবিষ্যদ্বাণীকারীদের নির্বাচন করা উচিত, বা এমনকি বাদ দেওয়া পরিবর্তনশীল পক্ষপাতিত্ব (ওভিবি)]]


আমি শিরোনাম পরিবর্তন করার পরামর্শ দিচ্ছি "রিগ্রেশন সঠিকভাবে ভবিষ্যদ্বাণী নির্বাচন করতে পারস্পরিক সম্পর্ক ম্যাট্রিক্স ব্যবহার করছেন কি?" বা আরও তথ্যপূর্ণ হতে অনুরূপ কিছু। আপনার প্রশ্নের একটি সাধারণ জবাবদিহি একটি পরিবর্তনশীল যা নির্ভরশীল ভেরিয়েবলের সাথে 1 এর পারস্পরিক সম্পর্ক রয়েছে - আপনি সম্ভবত এটি আপনার মডেলটিতে ব্যবহার করতে পছন্দ করবেন না।
টিম

3
পদ্ধতিটিতে কিছু যুক্তি রয়েছে তবে আপনি কেবলমাত্র একজন নিবন্ধকের বাছাই করতে সীমাবদ্ধ থাকলে তা কেবলমাত্র কার্যকর হয়। যদি আপনি কয়েকটি নির্বাচন করতে পারেন তবে এই পদ্ধতিটি ভেঙে যায়। এটি কারণ যে কয়েকটি এক্স এর একটি লিনিয়ার সংমিশ্রণ যা কেবলমাত্র ওয়াইয়ের সাথে দুর্বলভাবে সম্পর্কযুক্ত তার সাথে এক্স এর এক লিনিয়ার সংমিশ্রণের চেয়ে আরও বড় পারস্পরিক সম্পর্ক হতে পারে যা ওয়াইয়ের সাথে দৃ strongly়ভাবে সম্পর্কযুক্ত Rec একথা মনে করুন যে একাধিক রিগ্রেশন কেবলমাত্র স্বতন্ত্র নয় প্রভাবগুলি ...
রিচার্ড হার্ডি

1
সহযোগিতা শুধু রিগ্রেশন ঢাল মান নির্ধারিত হয়েছে β 1=সিবনাম(এক্স,ওয়াই)
ρX,Y=Cov(X,Y)σXσY
এক স্বতন্ত্র ভেরিয়েবলের সঙ্গে সহজ রিগ্রেশন জন্য। সুতরাং এই পদ্ধতির আপনাকে স্লোপ প্যারামিটারের সর্বাধিক মান সহ স্বতন্ত্র ভেরিয়েবল সন্ধান করতে দেয় তবে একাধিক স্বতন্ত্র ভেরিয়েবলগুলির সাথে এটি আরও জটিল হয়ে ওঠে।
β^1=Cov(X,Y)σX
টিম

2
এই উত্তরগুলি এই 'পদ্ধতি' সম্পর্কে আমার চিন্তাকে নিশ্চিত করে, তবুও অনেক মনোবিজ্ঞানীরা এই ধরণের পরিবর্তনশীল নির্বাচন ব্যবহার করেন :(
লিল 'লবস্টার

এটি 'লাইকাসো'র মতো শোনাচ্ছে ।
স্টিভো'আমেরিকা

উত্তর:


17

তাহলে কিছু কারণে, আপনি আপনার মডেল একমাত্র পরিবর্তনশীল অন্তর্ভুক্ত করতে যাচ্ছি, তাহলে predictor সঙ্গে যা সর্বোচ্চ পারস্পরিক সম্পর্ক রয়েছে নির্বাচন একাধিক সুবিধা রয়েছে। কেবলমাত্র একজন ভবিষ্যদ্বাণীযুক্ত সম্ভাব্য রিগ্রেশন মডেলগুলির মধ্যে, তবে এই মডেলটি হ'ল একমাত্র উচ্চমানের রিগ্রেশন সহগ এবং এটিও (যেহেতু আর 2 একটি সাধারণ লিনিয়ার রিগ্রেশনে আর এর বর্গ ) সংকল্পের সর্বোচ্চ সহগyR2r

তবে এটি স্পষ্ট নয় যে আপনি যদি আপনার বেশিরভাগের জন্য ডেটা উপলব্ধ করেন তবে আপনি কেন আপনার রিগ্রেশন মডেলটিকে একজন ভবিষ্যদ্বাণীকের কাছে সীমাবদ্ধ রাখতে চান। মন্তব্যে উল্লিখিত হিসাবে, কেবলমাত্র সম্পর্কের দিকে তাকানো কাজ করে না যদি আপনার মডেলটিতে বেশ কয়েকটি ভেরিয়েবল অন্তর্ভুক্ত থাকে। উদাহরণস্বরূপ, এই স্ক্যাটার ম্যাট্রিক্স থেকে, আপনি ভাবতে পারেন যে জন্য আপনার মডেলটি অন্তর্ভুক্ত করা উচিত তার জন্য প্রেডিক্টরগুলি হ'ল এক্স 1 (পারস্পরিক সম্পর্ক 0.824) এবং এক্স 2 (পারস্পরিক সম্পর্ক 0.782) তবে সেই এক্স 3 (পারস্পরিক সম্পর্ক 0.134) কোনও কার্যকর ভবিষ্যদ্বাণীকারী নয়।yx1x2x3

পারস্পরিক সম্পর্কযুক্ত ভেরিয়েবলের স্কেটর প্লটের ম্যাট্রিক্স

তবে আপনি ভুল হতে চাইবেন - বাস্তবে এই উদাহরণে, দুটি স্বতন্ত্র ভেরিয়েবল, x 1 এবং x 3 এর উপর নির্ভর করে তবে সরাসরি x 2 এ নয় । তবে এক্স 2 অত্যন্ত সঙ্গে সম্পর্কিত এক্স 1 এর সাথে একটি পারস্পরিক সম্পর্ক, যা বাড়ে Y এছাড়াও। মধ্যে পারস্পরিক এ খুঁজছি Y এবং এক্স 2 একলা, এই পরামর্শ দিয়ে থাকি এক্স 2 ভালো predictor হয় Y । কিন্তু একবার প্রভাব এক্স 1 করছে আউট partialled অন্তর্ভুক্ত করে এক্স 1yx1x3x2x2x1yyx2x2yx1x1 মডেলটিতে, এরকম কোনও সম্পর্ক নেই।

require(MASS) #for mvrnorm 
set.seed(42) #so reproduces same result

Sigma <- matrix(c(1,0.95,0,0.95,1,0,0,0,1),3,3)
N <- 1e4
x <- mvrnorm(n=N, c(0,0,0), Sigma, empirical=TRUE)
data.df <- data.frame(x1=x[,1], x2=x[,2], x3=x[,3])
# y depends on x1 strongly and x3 weakly, but not directly on x2
data.df$y <- with(data.df, 5 + 3*x1 + 0.5*x3) + rnorm(N, sd=2)

round(cor(data.df), 3)
#       x1    x2    x3     y
# x1 1.000 0.950 0.000 0.824
# x2 0.950 1.000 0.000 0.782
# x3 0.000 0.000 1.000 0.134
# y  0.824 0.782 0.134 1.000
# Note: x1 and x2 are highly correlated
# Since y is highly correlated with x1, it is with x2 too
# y depended only weakly on x3, their correlation is much lower

pairs(~y+x1+x2+x3,data=data.df, main="Scatterplot matrix")
# produces scatter plot above

model.lm <- lm(data=data.df, y ~ x1 + x2 + x3)
summary(model.lm)

# Coefficients:
#             Estimate Std. Error t value Pr(>|t|)    
# (Intercept)  4.99599    0.02018 247.631   <2e-16 ***
# x1           3.03724    0.06462  47.005   <2e-16 ***
# x2          -0.02436    0.06462  -0.377    0.706    
# x3           0.49185    0.02018  24.378   <2e-16 ***

x1x2x2x1x3x3

এবং এখানে একটি উদাহরণ যা আরও খারাপ:

Sigma <- matrix(c(1,0,0,0.5,0,1,0,0.5,0,0,1,0.5,0.5,0.5,0.5,1),4,4)
N <- 1e4
x <- mvrnorm(n=N, c(0,0,0,0), Sigma, empirical=TRUE)
data.df <- data.frame(x1=x[,1], x2=x[,2], x3=x[,3], x4=x[,4])
# y depends on x1, x2 and x3 but not directly on x4
data.df$y <- with(data.df, 5 + x1 + x2 + x3) + rnorm(N, sd=2)

round(cor(data.df), 3)
#       x1    x2    x3    x4     y
# x1 1.000 0.000 0.000 0.500 0.387
# x2 0.000 1.000 0.000 0.500 0.391
# x3 0.000 0.000 1.000 0.500 0.378
# x4 0.500 0.500 0.500 1.000 0.583
# y  0.387 0.391 0.378 0.583 1.000

pairs(~y+x1+x2+x3+x4,data=data.df, main="Scatterplot matrix")

model.lm <- lm(data=data.df, y ~ x1 + x2 + x3 +x4)
summary(model.lm)
# Coefficients:
#             Estimate Std. Error t value Pr(>|t|)    
# (Intercept)  4.98117    0.01979 251.682   <2e-16 ***
# x1           0.99874    0.02799  35.681   <2e-16 ***
# x2           1.00812    0.02799  36.016   <2e-16 ***
# x3           0.97302    0.02799  34.762   <2e-16 ***
# x4           0.06002    0.03958   1.516    0.129

yx1x2x3x4x1x2x3x4yy মডেলটির সাথে মোটেই অন্তর্ভুক্ত নয় এমন ভেরিয়েবলটি আসলে খুঁজে পেতে পারেন।


তবে ... এই সমস্ত সহজাত পরিস্থিতি কি প্রযোজ্য, যখন এই 'সহকর্মী মনোবিজ্ঞানী' চয়ন করেন - বলুন - 10 টির মধ্যে 4 টি ভেরিয়েবল এক্স, যা ওয়াইয়ের সাথে খুব বেশি সম্পর্কযুক্ত (পারস্পরিক সম্পর্কযুক্ত কোফস <0.7), ছয়টি এক্সকে মাঝারিভাবে সম্পর্কযুক্ত বা না রেখে Y এর সাথে এত কিছু?
লিল লবস্টার

1
y

0

আপনি একটি পদক্ষেপ অনুসারে রিগ্রেশন বিশ্লেষণ চালাতে পারেন এবং সফ্টওয়্যারকে F মানগুলির উপর ভিত্তি করে ভেরিয়েবলগুলি চয়ন করতে দিন। আপনি প্রতিবার যখন রিগ্রেশন চালাবেন তখন আপনি অ্যাডজাস্টেড আর ^ 2 মানের দিকেও নজর রাখতে পারেন, আপনার মডেলটিতে কোনও নতুন ভেরিয়েবল অবদান রাখছে কিনা তা দেখতে। আপনার মডেলটিতে মাল্টিক্ললাইনারিটির সমস্যা থাকতে পারে যদি আপনি কেবল পরস্পর সম্পর্কযুক্ত ম্যাট্রিক্সে যান এবং দৃ strong় সম্পর্কের সাথে ভেরিয়েবলগুলি চয়ন করেন। আশাকরি এটা সাহায্য করবে!


6
ধাপে ধাপে নির্বাচন ওপেন দ্বারা বর্ণিত পদ্ধতি হিসাবে একই সমস্যার দিকে পরিচালিত করে: stata.com/support/faqs/statistics/stepwise-regression- প্রবলেমগুলিও লক্ষ করে যে প্রশ্নটি এই নির্দিষ্ট পদ্ধতি সম্পর্কে ছিল এবং বিকল্প পদ্ধতির সন্ধান সম্পর্কে নয়।
টিম

2
এটি মডেল নির্বাচনের জন্য একটি খুব প্রাথমিক পদ্ধতি - যদি আপনার লক্ষ্যটি কঠোরভাবে পরিবর্তনের ব্যাখ্যা হয় তবে ধাপে ধাপে R2 ব্যবহার করা উপযুক্ত হতে পারে তবে আপনি যদি অনুমান, ভবিষ্যদ্বাণী, হাইপোথিসিস টেস্টিং ইত্যাদিতে আগ্রহী হন, তবে আপনাকে আর 2 এর বাইরে পথ চিন্তা করার দরকার আছে (এবং সম্ভবত আর 2 কেও উপেক্ষা করুন)।
robin.datadrivers
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.