একাধিক রিগ্রেশন মডেলটিতে পারস্পরিক সম্পর্কযুক্ত ভবিষ্যদ্বাণীকারীদের প্রভাব কী?


45

আমি আমার লিনিয়ার মডেলগুলির ক্লাসে শিখেছি যে যদি দুজন ভবিষ্যদ্বাণীকে পারস্পরিক সম্পর্কযুক্ত হয় এবং উভয়কে একটি মডেলের অন্তর্ভুক্ত করা হয় তবে একটি তুচ্ছ হবে। উদাহরণস্বরূপ, কোনও বাড়ির আকার এবং শয়নকক্ষের সংখ্যাটি পরস্পর সম্পর্কিত বলে ধরে নিন। এই দুটি ভবিষ্যদ্বাণীকারীকে ব্যবহার করে কোনও বাড়ির দামের পূর্বাভাস দেওয়ার সময়, তাদের মধ্যে একটি বাদ দেওয়া যেতে পারে কারণ তারা উভয়ই একই তথ্য সরবরাহ করে। স্বজ্ঞাতভাবে, এটি উপলব্ধি করে তবে আমার কাছে আরও কিছু প্রযুক্তিগত প্রশ্ন রয়েছে:

  1. মডেলটিতে কেবলমাত্র একজন বা উভয় ভবিষ্যদ্বাণীকে অন্তর্ভুক্ত করার সময় এই প্রভাবটি কীভাবে রিগ্রেশন সহগের পি-মানগুলিতে প্রকাশ পায়?
  2. মডেলটিতে ভবিষ্যদ্বাণীকারী উভয়কেই অন্তর্ভুক্ত করে বা কেবল একটি রেখে রেগ্রেশন সহগের বৈচিত্র কীভাবে প্রভাবিত হবে?
  3. আমি কীভাবে জানব যে কোন ভবিষ্যদ্বাণী মডেল কম তাৎপর্যপূর্ণ হতে পছন্দ করবে?
  4. কেবলমাত্র একজনকে বা উভয় ভবিষ্যদ্বাণীকে অন্তর্ভুক্ত করা কীভাবে আমার পূর্বাভাসিত ব্যয়ের মান / বৈচিত্র পরিবর্তন করতে পারে?

6
আপনার কয়েকটি প্রশ্নের উত্তরগুলি অন্যান্য থ্রেডে হাজির হয়েছে, যেমন stats.stackexchange.com/a/14528 এ , এমন একটি পরিস্থিতি বর্ণনা করে যেখানে কেবলমাত্র হালকাভাবে সম্পর্কযুক্ত ভবিষ্যদ্বাণীকারীদের একটি সেট সম্মিলিতভাবে অন্তর্ভুক্ত হওয়া সত্ত্বেও তুচ্ছ বলে মনে হয় they মডেল মধ্যে। এটি প্রশ্নগুলির একটি ভাল সেট কিন্তু বিপুল সংখ্যক বিবেচনা এবং কৌশলগুলি নিয়ে যায়; তাদের সম্পর্কে পুরো বই লেখা হয়েছে। উদাহরণস্বরূপ, ফ্র্যাঙ্ক হ্যারেলের রিগ্রেশন মডেলিং কৌশলগুলি দেখুন
হোয়বার

1
ঘরের আকার এবং শয়নকক্ষগুলি ব্যবহার করে আপনি দেখতে পাচ্ছেন যে পারস্পরিক সম্পর্ক 1 বা -1 এর চেয়ে আলাদা হলে তুচ্ছতার নিশ্চয়তা দেওয়া হয় না। একই আকারে আসলে 2 বেডরুম এবং 3 বেডরুমের ঘর রয়েছে এবং তাদের ব্যয়গুলি (উল্লেখযোগ্যভাবে) পৃথক হতে পারে, উভয় ভবিষ্যদ্বাণীকে উল্লেখযোগ্য করে তোলে। তবে বর্গমিটারের আকার এবং বর্গফুট আকারের মধ্যে পারস্পরিক সম্পর্ক রয়েছে = 1 এবং এর মধ্যে একটি সর্বদা বাদ দেওয়া যেতে পারে।
পেরে

উত্তর:


38

আপনি যে বিষয়টির বিষয়ে জিজ্ঞাসা করছেন তা হ'ল বহুবিধ লাইনারিটি । আপনি ট্যাগের অধীনে সিভিতে শ্রেণিবদ্ধ কিছু থ্রেড পড়তে চাইতে পারেন । বিশেষ করে উপরের লিঙ্কযুক্ত @ হোবারের উত্তরটিও আপনার সময়ের পক্ষে মূল্যবান।


"যদি দুজন ভবিষ্যদ্বাণীকারী পারস্পরিক সম্পর্কযুক্ত হয় এবং উভয়কে একটি মডেলে অন্তর্ভুক্ত করা হয় তবে একটি তুচ্ছ হবে", এই দাবিটি সঠিক নয়। যদি কোনও ভেরিয়েবলের আসল প্রভাব থাকে তবে সম্ভাব্যতা যে পরিবর্তনশীলটি উল্লেখযোগ্য হবে তা হ'ল বিভিন্ন বিষয়ের ক্রিয়া, যেমন প্রভাবের তাত্পর্য, ত্রুটির পরিবর্তনের পরিমাণ, ভেরিয়েবলের নিজেই তারতম্য, ডেটা পরিমাণ আপনার কাছে এবং মডেলটিতে অন্যান্য ভেরিয়েবলের সংখ্যা রয়েছে। ভেরিয়েবলগুলি পারস্পরিক সম্পর্কযুক্ত কিনা তা প্রাসঙ্গিক হলেও এটি এই সত্যগুলিকে ওভাররাইড করে না। নিম্নলিখিত সাধারণ বিক্ষোভ বিবেচনা করুন R:

library(MASS)    # allows you to generate correlated data
set.seed(4314)   # makes this example exactly replicable

# generate sets of 2 correlated variables w/ means=0 & SDs=1
X0 = mvrnorm(n=20,   mu=c(0,0), Sigma=rbind(c(1.00, 0.70),    # r=.70
                                            c(0.70, 1.00)) )
X1 = mvrnorm(n=100,  mu=c(0,0), Sigma=rbind(c(1.00, 0.87),    # r=.87
                                            c(0.87, 1.00)) )
X2 = mvrnorm(n=1000, mu=c(0,0), Sigma=rbind(c(1.00, 0.95),    # r=.95
                                            c(0.95, 1.00)) )
y0 = 5 + 0.6*X0[,1] + 0.4*X0[,2] + rnorm(20)    # y is a function of both
y1 = 5 + 0.6*X1[,1] + 0.4*X1[,2] + rnorm(100)   #  but is more strongly
y2 = 5 + 0.6*X2[,1] + 0.4*X2[,2] + rnorm(1000)  #  related to the 1st

# results of fitted models (skipping a lot of output, including the intercepts)
summary(lm(y0~X0[,1]+X0[,2]))
#             Estimate Std. Error t value Pr(>|t|)    
# X0[, 1]       0.6614     0.3612   1.831   0.0847 .     # neither variable
# X0[, 2]       0.4215     0.3217   1.310   0.2075       #  is significant
summary(lm(y1~X1[,1]+X1[,2]))
#             Estimate Std. Error t value Pr(>|t|)    
# X1[, 1]      0.57987    0.21074   2.752  0.00708 **    # only 1 variable
# X1[, 2]      0.25081    0.19806   1.266  0.20841       #  is significant
summary(lm(y2~X2[,1]+X2[,2]))
#             Estimate Std. Error t value Pr(>|t|)    
# X2[, 1]      0.60783    0.09841   6.177 9.52e-10 ***   # both variables
# X2[, 2]      0.39632    0.09781   4.052 5.47e-05 ***   #  are significant

দুটি ভেরিয়েবলের মধ্যে পারস্পরিক সম্পর্ক প্রথম উদাহরণে সবচেয়ে কম এবং তৃতীয়টিতে সর্বাধিক, তবুও দুটি উদাহরণ প্রথম উদাহরণে উল্লেখযোগ্য নয় এবং উভয়ই শেষ উদাহরণে রয়েছে। প্রভাবগুলির তীব্রতা তিনটি ক্ষেত্রেই অভিন্ন এবং ভেরিয়েবলের বৈকল্পিকগুলি এবং ত্রুটিগুলি একই হওয়া উচিত (এগুলি স্টোকাস্টিক, তবে একই বৈচিত্র্যের সাথে জনসংখ্যা থেকে আঁকা)। আমরা এখানে যে প্যাটার্নটি দেখতে পাই তা মূলত প্রতিটি ক্ষেত্রে এর কারসাজির জন্য। N


আপনার প্রশ্নগুলি সমাধান করার জন্য মূল ধারণাটি হ'ল ভেরিয়েন্স মুদ্রাস্ফীতি ফ্যাক্টর (ভিআইএফ)। ভিআইএফ হ'ল আপনার রিগ্রেশন সহগের বৈকল্পিকতা তার চেয়ে অনেক বড় তবে অন্যথায় যদি ভেরিয়েবলটি মডেলের অন্যান্য সমস্ত ভেরিয়েবলগুলির সাথে সম্পূর্ণরূপে অসম্পৃক্ত থাকে। নোট করুন যে ভিআইএফ একটি গুণক গুণক, যদি প্রশ্নের মধ্যে ভেরিয়েবলটি ভিআইএফ = 1 টির সাথে সম্পর্কযুক্ত হয়। ভিআইএফ-এর একটি সহজ বোধগম্যতা নিম্নরূপ: আপনি আপনার মডেলের অন্যান্য সমস্ত ভেরিয়েবল (যেমন, ) থেকে কোনও ভেরিয়েবল (বলুন, ) ভবিষ্যদ্বাণী করে এমন একটি মডেল ফিট করতে পারেন এবং একাধিক পেতে পারেন । জন্য Vif হবে । ধরা যাক ছিলX1X2R2X11/(1R2)X110(প্রায়শই অত্যধিক বহুবিশ্লেষের জন্য এক প্রান্তিক বিবেচনা করা হয়), তারপরে জন্য রিগ্রেশন সহগের স্যাম্পলিং বিতরণের তার তুলনায় বড় হত যদি মডেলের অন্যান্য সমস্ত ভেরিয়েবলগুলির সাথে সম্পূর্ণরূপে সম্পর্কযুক্ত না হত। X110×X1

যদি আপনি উভয়টি সহসম্পর্কিত ভেরিয়েবল বনাম উভয়কে অন্তর্ভুক্ত করেন তবে কী হবে সে সম্পর্কে চিন্তাভাবনা কেবল একটির মতো তবে উপরে বর্ণিত পদ্ধতির চেয়ে কিছুটা জটিল। এটি কারণ কোনও ভেরিয়েবলকে অন্তর্ভুক্ত না করার অর্থ মডেলটি স্বাচ্ছন্দ্যের কম ডিগ্রি ব্যবহার করে যা অবশিষ্টাংশগুলি এবং এর থেকে গণনা করা সমস্ত কিছুই (রিগ্রেশন সহগের বৈচিত্র সহ) পরিবর্তন করে। তদুপরি, যদি অ-অন্তর্ভুক্ত ভেরিয়েবলটি প্রতিক্রিয়াটির সাথে সত্যিই যুক্ত হয়, তবে সেই পরিবর্তকের কারণে প্রতিক্রিয়াটির বৈকল্পিকটি অবশিষ্টাংশের মধ্যে অন্তর্ভুক্ত হবে, অন্যথায় এর চেয়ে বড় করে তুলবে। সুতরাং, বেশ কয়েকটি জিনিস একই সাথে পরিবর্তিত হয় (ভেরিয়েবলটি অন্য ভেরিয়েবলের সাথে সম্পর্কযুক্ত বা না, এবং অবশিষ্ট পরিবর্তনগুলি), এবং অন্যান্য ভেরিয়েবল সহ নামানো / নামার সঠিক প্রভাব কীভাবে সেই বাণিজ্য বন্ধ হবে তার উপর নির্ভর করবে।


ভিআইএফ বোঝার সাথে সজ্জিত, আপনার প্রশ্নের উত্তরগুলি এখানে:

  1. কারণ রিগ্রেশন সহগের নমুনা বিতরণের বৈচিত্রটি বৃহত্তর হবে (ভিআইএফ-এর একটি উপাদান দ্বারা) যদি এটি মডেলের অন্যান্য ভেরিয়েবলের সাথে সম্পর্কিত হয়, পি-মানগুলি অন্যথায় তাদের চেয়ে বেশি হবে (অর্থাত্ কম গুরুত্বপূর্ণ) would ।
  2. ইতিমধ্যে আলোচিত হিসাবে রিগ্রেশন সহগের বৈচিত্রগুলি আরও বড় হবে।
  3. সাধারণভাবে, মডেলটির সমাধান না করে এটি জানা শক্ত। সাধারণত, যদি দুজনের মধ্যে একটিরই তাৎপর্যপূর্ণ হয়, তবে এটিই হবে যে সাথে দৃ stronger় দ্বিবিভক্ত সম্পর্ক রয়েছে । Y
  4. পূর্বাভাসিত মান এবং তাদের বৈচিত্রগুলি কীভাবে পরিবর্তিত হবে তা বেশ জটিল। এটি ভেরিয়েবলগুলি কীভাবে দৃ strongly়ভাবে সম্পর্কিত এবং যেভাবে তারা আপনার ডেটাতে আপনার প্রতিক্রিয়া ভেরিয়েবলের সাথে জড়িত বলে মনে হয় তার উপর নির্ভর করে। এই সমস্যাটি সম্পর্কে, এটি আমার উত্তরটি পড়তে আপনাকে এখানে সহায়তা করতে পারে: একাধিক প্রতিরোধের জন্য 'নিয়ন্ত্রণ করা' এবং অন্যান্য ভেরিয়েবলগুলিকে 'উপেক্ষা' করার মধ্যে কোনও পার্থক্য রয়েছে কি?

5

এটি মন্তব্য বেশি, কিন্তু আমি একটি গ্রাফ এবং কিছু কোড অন্তর্ভুক্ত করতে চেয়েছিলাম।

আমি মনে করি "যদি দুটি ভবিষ্যদ্বাণীকারী পারস্পরিক সম্পর্কযুক্ত হয় এবং উভয়কে একটি মডেলের অন্তর্ভুক্ত করা হয় তবে একটি তুচ্ছ হবে" আপনি যদি "শুধুমাত্র একটি" বলতে চান তবে এটি মিথ্যা। পরিবর্তনশীল নির্বাচনের জন্য বাইনারি পরিসংখ্যানগত তাত্পর্য ব্যবহার করা যায় না।

জাংটি পরিধি, ত্বকের ভাঁজ বেধ * এবং মাঝের বাহুর পরিধি সম্পর্কে শরীরের ফ্যাট শতাংশের একটি রেগ্রেশন ব্যবহার করে আমার প্রতিবেদনটি এখানে:

. webuse bodyfat, clear
(Body Fat)

. reg bodyfat thigh triceps midarm

      Source |       SS       df       MS              Number of obs =      20
-------------+------------------------------           F(  3,    16) =   21.52
       Model |  396.984607     3  132.328202           Prob > F      =  0.0000
    Residual |  98.4049068    16  6.15030667           R-squared     =  0.8014
-------------+------------------------------           Adj R-squared =  0.7641
       Total |  495.389513    19  26.0731323           Root MSE      =    2.48

------------------------------------------------------------------------------
     bodyfat |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
       thigh |  -2.856842   2.582015    -1.11   0.285    -8.330468    2.616785
     triceps |   4.334085   3.015511     1.44   0.170    -2.058512    10.72668
      midarm |  -2.186056   1.595499    -1.37   0.190    -5.568362     1.19625
       _cons |   117.0844   99.78238     1.17   0.258    -94.44474    328.6136
------------------------------------------------------------------------------

. corr bodyfat thigh triceps midarm 
(obs=20)

             |  bodyfat    thigh  triceps   midarm
-------------+------------------------------------
     bodyfat |   1.0000
       thigh |   0.8781   1.0000
     triceps |   0.8433   0.9238   1.0000
      midarm |   0.1424   0.0847   0.4578   1.0000


. ellip thigh triceps, coefs plot( (scatteri `=_b[thigh]' `=_b[triceps]'), yline(0, lcolor(gray)) xline(0, lcolor(gray)) legend(off))

এখানে চিত্র বর্ণনা লিখুন

আপনি যেমন রিগ্রেশন টেবিল থেকে দেখতে পাচ্ছেন, সমস্ত কিছু তুচ্ছ, যদিও পি-মানগুলি কিছুটা আলাদা হয়।

সর্বশেষ স্টাটা কমান্ডটি পয়েন্ট অনুমান (লাল বিন্দু) সহ 2 টি রিগ্রেশন কোফিয়েনটিস (পরিচিত আত্মবিশ্বাসের অন্তরগুলির একটি দ্বিমাত্রিক এনালগ) এর জন্য আস্থা অঞ্চলকে গ্রাফ করে। ত্বকের ভাঁজ বেধ এবং ighরু পরিধি সহগের জন্য আস্থাবৃত্তবৃত্ত দীর্ঘ, সংকীর্ণ এবং কাত হয়ে থাকে, যা রেজিস্ট্রারগুলিতে প্রান্তিকতা প্রতিফলিত করে। আনুমানিক সহগের মধ্যে উচ্চ নেতিবাচক সমবায় রয়েছে। উপবৃত্তটি উল্লম্ব এবং অনুভূমিক অক্ষগুলির অংশগুলি কভার করে, যার অর্থ আমরা পৃথক অনুমানগুলি অস্বীকার করতে পারি না যে গুলি শূন্য, যদিও আমরা যৌথ শূন্যটিকে প্রত্যাখাত করতে পারি যেহেতু উপবৃত্তটি মূলটি আবরণ করে না। অন্য কথায়, উর এবং ট্রাইসেপগুলি শরীরের ফ্যাটগুলির জন্য প্রাসঙ্গিক তবে আপনি কোনটি অপরাধী তা নির্ধারণ করতে পারবেন না।β

তাহলে আমরা কীভাবে জানব যে কোন ভবিষ্যদ্বাণীকারীদের কম তাৎপর্য হবে? একটি রেজিস্ট্রারের প্রকরণকে দুই ধরণের মধ্যে শ্রেণিবদ্ধ করা যেতে পারে:

  1. প্রতিটি রেজিস্ট্রারের জন্য স্বতন্ত্র বৈচিত্র্য
  2. পরিবর্তনগুলি যা নিবন্ধকদের দ্বারা ভাগ করা হয়

প্রতিটি নিবন্ধকের সহগের অনুমানের ক্ষেত্রে, কেবল প্রথমটি ব্যবহৃত হবে। এটির বরাদ্দ করা যায় না বলে সাধারণ প্রকরণটি উপেক্ষা করা হয়, যদিও এটি পূর্বাভাস এবং গণনায় ব্যবহৃত হয় । যখন সামান্য অনন্য তথ্য থাকবে, তখন আত্মবিশ্বাস কম হবে এবং সহগ বৈকল্পিকগুলি বেশি হবে। মাল্টিকোলাইনারিটি যত বেশি হবে তত কম অনন্য প্রকরণ এবং তারতম্যগুলি তত বেশি। R2


* ত্বকের ভাঁজটি ট্রাইসেপস পেশীগুলির উপরে নেওয়া ত্বকের ভাঁজের প্রস্থ এবং একটি ক্যালিপার ব্যবহার করে মাপা হয়।


আমি আপনার উদাহরণটি পছন্দ করি, তবে কঠোরভাবে বলতে গেলে এটি একটি পাল্টা নমুনা হবে যদি মূল প্রশ্নটির বক্তব্যটি "যদি [...], কেবলমাত্র একটি তুচ্ছ" হবে তবে এটিতে কেবল "শব্দ" নেই।
অ্যামিবা বলেছেন মনিকা পুনরায়

@ অ্যামিবা এটি একটি দুর্দান্ত বিষয়। আমি আমার মন্তব্য সংশোধন করব।
দিমিত্রি ভি। মাস্টারভ

আপনি আরও চিত্রিত করার জন্য কিছু সূত্র সরবরাহ করতে পারেন: "প্রতিটি নিবন্ধকের সহগের অনুমানের ক্ষেত্রে কেবল প্রথমটি ব্যবহৃত হবে Common সাধারণ বরাদ্দকে এড়ানো যায় যেহেতু এটি বরাদ্দ করা যায় না"
ম্যাক

3

@ শুভ যেমন উল্লেখ করেছেন, এটি একটি জটিল প্রশ্ন। তবে আপনার পোস্টের প্রথম বাক্যটি একটি বিস্তৃত সরলকরণ। এটি প্রায়শই ক্ষেত্রে হয় যে দুটি (বা আরও) ভেরিয়েবলগুলি পরস্পর সম্পর্কযুক্ত হবে এবং উভয়ই নির্ভরশীল ভেরিয়েবলের সাথে সম্পর্কিত। সেগুলি তাৎপর্যপূর্ণ কিনা তা উভয়ই প্রভাবের আকার এবং কক্ষের আকারের উপর নির্ভর করে।

আপনার উদাহরণ হিসাবে ধরা যাক, নির্দিষ্ট আকারের বাড়ির জন্য লোকেরা কম ঘর পছন্দ করেছে (কমপক্ষে এনওয়াইসি-তে এটি অযৌক্তিক নয় - এটি পুরানো বিল্ডিংগুলি, আরও শক্ত প্রাচীর ইত্যাদি নির্দেশ করবে এবং পাড়ার জন্য চিহ্নিতকারী হতে পারে)। তবে উভয়ই বিপরীত দিকগুলির মধ্যে তাৎপর্যপূর্ণ হতে পারে!

অথবা, ধরুন যে দুটি ভেরিয়েবলগুলি ঘরের আকার এবং পাড়া ছিল - এগুলি পারস্পরিক সম্পর্কযুক্ত হবে, অবশ্যই, আরও ভাল পাড়ায় বৃহত্তর বাড়িগুলি - তবে তারা এখনও উভয়ই তাৎপর্যপূর্ণ হতে পারে এবং অবশ্যই উভয়ই বাড়ির দামের সাথে সম্পর্কিত।

এছাড়াও, শুধুমাত্র "সম্পর্কিত" মুখোশ জটিলতা ব্যবহার করে। ভেরিয়েবলগুলি সম্পর্কযুক্ত না হয়ে দৃ strongly়ভাবে সম্পর্কিত হতে পারে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.