আপনি যে বিষয়টির বিষয়ে জিজ্ঞাসা করছেন তা হ'ল বহুবিধ লাইনারিটি । আপনি বহুভিত্তিকের ট্যাগের অধীনে সিভিতে শ্রেণিবদ্ধ কিছু থ্রেড পড়তে চাইতে পারেন । বিশেষ করে উপরের লিঙ্কযুক্ত @ হোবারের উত্তরটিও আপনার সময়ের পক্ষে মূল্যবান।
"যদি দুজন ভবিষ্যদ্বাণীকারী পারস্পরিক সম্পর্কযুক্ত হয় এবং উভয়কে একটি মডেলে অন্তর্ভুক্ত করা হয় তবে একটি তুচ্ছ হবে", এই দাবিটি সঠিক নয়। যদি কোনও ভেরিয়েবলের আসল প্রভাব থাকে তবে সম্ভাব্যতা যে পরিবর্তনশীলটি উল্লেখযোগ্য হবে তা হ'ল বিভিন্ন বিষয়ের ক্রিয়া, যেমন প্রভাবের তাত্পর্য, ত্রুটির পরিবর্তনের পরিমাণ, ভেরিয়েবলের নিজেই তারতম্য, ডেটা পরিমাণ আপনার কাছে এবং মডেলটিতে অন্যান্য ভেরিয়েবলের সংখ্যা রয়েছে। ভেরিয়েবলগুলি পারস্পরিক সম্পর্কযুক্ত কিনা তা প্রাসঙ্গিক হলেও এটি এই সত্যগুলিকে ওভাররাইড করে না। নিম্নলিখিত সাধারণ বিক্ষোভ বিবেচনা করুন R
:
library(MASS) # allows you to generate correlated data
set.seed(4314) # makes this example exactly replicable
# generate sets of 2 correlated variables w/ means=0 & SDs=1
X0 = mvrnorm(n=20, mu=c(0,0), Sigma=rbind(c(1.00, 0.70), # r=.70
c(0.70, 1.00)) )
X1 = mvrnorm(n=100, mu=c(0,0), Sigma=rbind(c(1.00, 0.87), # r=.87
c(0.87, 1.00)) )
X2 = mvrnorm(n=1000, mu=c(0,0), Sigma=rbind(c(1.00, 0.95), # r=.95
c(0.95, 1.00)) )
y0 = 5 + 0.6*X0[,1] + 0.4*X0[,2] + rnorm(20) # y is a function of both
y1 = 5 + 0.6*X1[,1] + 0.4*X1[,2] + rnorm(100) # but is more strongly
y2 = 5 + 0.6*X2[,1] + 0.4*X2[,2] + rnorm(1000) # related to the 1st
# results of fitted models (skipping a lot of output, including the intercepts)
summary(lm(y0~X0[,1]+X0[,2]))
# Estimate Std. Error t value Pr(>|t|)
# X0[, 1] 0.6614 0.3612 1.831 0.0847 . # neither variable
# X0[, 2] 0.4215 0.3217 1.310 0.2075 # is significant
summary(lm(y1~X1[,1]+X1[,2]))
# Estimate Std. Error t value Pr(>|t|)
# X1[, 1] 0.57987 0.21074 2.752 0.00708 ** # only 1 variable
# X1[, 2] 0.25081 0.19806 1.266 0.20841 # is significant
summary(lm(y2~X2[,1]+X2[,2]))
# Estimate Std. Error t value Pr(>|t|)
# X2[, 1] 0.60783 0.09841 6.177 9.52e-10 *** # both variables
# X2[, 2] 0.39632 0.09781 4.052 5.47e-05 *** # are significant
দুটি ভেরিয়েবলের মধ্যে পারস্পরিক সম্পর্ক প্রথম উদাহরণে সবচেয়ে কম এবং তৃতীয়টিতে সর্বাধিক, তবুও দুটি উদাহরণ প্রথম উদাহরণে উল্লেখযোগ্য নয় এবং উভয়ই শেষ উদাহরণে রয়েছে। প্রভাবগুলির তীব্রতা তিনটি ক্ষেত্রেই অভিন্ন এবং ভেরিয়েবলের বৈকল্পিকগুলি এবং ত্রুটিগুলি একই হওয়া উচিত (এগুলি স্টোকাস্টিক, তবে একই বৈচিত্র্যের সাথে জনসংখ্যা থেকে আঁকা)। আমরা এখানে যে প্যাটার্নটি দেখতে পাই তা মূলত প্রতিটি ক্ষেত্রে এর কারসাজির জন্য। N
আপনার প্রশ্নগুলি সমাধান করার জন্য মূল ধারণাটি হ'ল ভেরিয়েন্স মুদ্রাস্ফীতি ফ্যাক্টর (ভিআইএফ)। ভিআইএফ হ'ল আপনার রিগ্রেশন সহগের বৈকল্পিকতা তার চেয়ে অনেক বড় তবে অন্যথায় যদি ভেরিয়েবলটি মডেলের অন্যান্য সমস্ত ভেরিয়েবলগুলির সাথে সম্পূর্ণরূপে অসম্পৃক্ত থাকে। নোট করুন যে ভিআইএফ একটি গুণক গুণক, যদি প্রশ্নের মধ্যে ভেরিয়েবলটি ভিআইএফ = 1 টির সাথে সম্পর্কযুক্ত হয়। ভিআইএফ-এর একটি সহজ বোধগম্যতা নিম্নরূপ: আপনি আপনার মডেলের অন্যান্য সমস্ত ভেরিয়েবল (যেমন, ) থেকে কোনও ভেরিয়েবল (বলুন, ) ভবিষ্যদ্বাণী করে এমন একটি মডেল ফিট করতে পারেন এবং একাধিক পেতে পারেন । জন্য Vif হবে । ধরা যাক ছিলX1X2R2X11/(1−R2)X110(প্রায়শই অত্যধিক বহুবিশ্লেষের জন্য এক প্রান্তিক বিবেচনা করা হয়), তারপরে জন্য রিগ্রেশন সহগের স্যাম্পলিং বিতরণের তার তুলনায় বড় হত যদি মডেলের অন্যান্য সমস্ত ভেরিয়েবলগুলির সাথে সম্পূর্ণরূপে সম্পর্কযুক্ত না হত। X110×X1
যদি আপনি উভয়টি সহসম্পর্কিত ভেরিয়েবল বনাম উভয়কে অন্তর্ভুক্ত করেন তবে কী হবে সে সম্পর্কে চিন্তাভাবনা কেবল একটির মতো তবে উপরে বর্ণিত পদ্ধতির চেয়ে কিছুটা জটিল। এটি কারণ কোনও ভেরিয়েবলকে অন্তর্ভুক্ত না করার অর্থ মডেলটি স্বাচ্ছন্দ্যের কম ডিগ্রি ব্যবহার করে যা অবশিষ্টাংশগুলি এবং এর থেকে গণনা করা সমস্ত কিছুই (রিগ্রেশন সহগের বৈচিত্র সহ) পরিবর্তন করে। তদুপরি, যদি অ-অন্তর্ভুক্ত ভেরিয়েবলটি প্রতিক্রিয়াটির সাথে সত্যিই যুক্ত হয়, তবে সেই পরিবর্তকের কারণে প্রতিক্রিয়াটির বৈকল্পিকটি অবশিষ্টাংশের মধ্যে অন্তর্ভুক্ত হবে, অন্যথায় এর চেয়ে বড় করে তুলবে। সুতরাং, বেশ কয়েকটি জিনিস একই সাথে পরিবর্তিত হয় (ভেরিয়েবলটি অন্য ভেরিয়েবলের সাথে সম্পর্কযুক্ত বা না, এবং অবশিষ্ট পরিবর্তনগুলি), এবং অন্যান্য ভেরিয়েবল সহ নামানো / নামার সঠিক প্রভাব কীভাবে সেই বাণিজ্য বন্ধ হবে তার উপর নির্ভর করবে।
ভিআইএফ বোঝার সাথে সজ্জিত, আপনার প্রশ্নের উত্তরগুলি এখানে:
- কারণ রিগ্রেশন সহগের নমুনা বিতরণের বৈচিত্রটি বৃহত্তর হবে (ভিআইএফ-এর একটি উপাদান দ্বারা) যদি এটি মডেলের অন্যান্য ভেরিয়েবলের সাথে সম্পর্কিত হয়, পি-মানগুলি অন্যথায় তাদের চেয়ে বেশি হবে (অর্থাত্ কম গুরুত্বপূর্ণ) would ।
- ইতিমধ্যে আলোচিত হিসাবে রিগ্রেশন সহগের বৈচিত্রগুলি আরও বড় হবে।
- সাধারণভাবে, মডেলটির সমাধান না করে এটি জানা শক্ত। সাধারণত, যদি দুজনের মধ্যে একটিরই তাৎপর্যপূর্ণ হয়, তবে এটিই হবে যে সাথে দৃ stronger় দ্বিবিভক্ত সম্পর্ক রয়েছে । Y
- পূর্বাভাসিত মান এবং তাদের বৈচিত্রগুলি কীভাবে পরিবর্তিত হবে তা বেশ জটিল। এটি ভেরিয়েবলগুলি কীভাবে দৃ strongly়ভাবে সম্পর্কিত এবং যেভাবে তারা আপনার ডেটাতে আপনার প্রতিক্রিয়া ভেরিয়েবলের সাথে জড়িত বলে মনে হয় তার উপর নির্ভর করে। এই সমস্যাটি সম্পর্কে, এটি আমার উত্তরটি পড়তে আপনাকে এখানে সহায়তা করতে পারে: একাধিক প্রতিরোধের জন্য 'নিয়ন্ত্রণ করা' এবং অন্যান্য ভেরিয়েবলগুলিকে 'উপেক্ষা' করার মধ্যে কোনও পার্থক্য রয়েছে কি?