২ য় চতুর্থ যোগ করা কীভাবে প্রথম চতুর্থকে তাৎপর্যপূর্ণ করে তুলতে পারে?


64

আমার কাছে সম্ভবত একটি সাধারণ প্রশ্ন রয়েছে তবে এটি এখনই আমাকে অবাক করে দিচ্ছে, তাই আমি আশা করি আপনি আমাকে সাহায্য করতে পারেন।

আমার একটি স্বতন্ত্র ভেরিয়েবল এবং একটি নির্ভরশীল ভেরিয়েবল সহ ন্যূনতম স্কোয়ার রিগ্রেশন মডেল রয়েছে। সম্পর্কটি তাত্পর্যপূর্ণ নয়। এখন আমি একটি দ্বিতীয় স্বাধীন ভেরিয়েবল যুক্ত করব। এখন প্রথম স্বাধীন পরিবর্তনশীল এবং নির্ভরশীল ভেরিয়েবলের মধ্যে সম্পর্ক তাৎপর্যপূর্ণ হয়ে ওঠে।

কিভাবে কাজ করে? এটি সম্ভবত আমার বোঝার সাথে কিছু সমস্যা প্রকাশ করছে তবে আমার কাছে, তবে এই দ্বিতীয় স্বতন্ত্র ভেরিয়েবলটি যুক্ত করা কীভাবে প্রথমটিকে তাৎপর্যপূর্ণ করে তুলতে পারে তা আমি দেখছি না।


4
এটি এই সাইটে একটি বহুল আলোচিত বিষয়। এটি সম্ভবত কোলিনারিটির কারণে। "কোলাইনারিটি" অনুসন্ধান করুন এবং আপনি কয়েক ডজন প্রাসঙ্গিক থ্রেড পাবেন। আমি stats.stackexchange.com/Quetions/14500/… এর
ম্যাক্রো

3
উল্লেখযোগ্য পূর্বাভাসকারীদের সম্ভাব্য সদৃশ একাধিক লজিস্টিক রিগ্রেশনে অ-তাৎপর্যপূর্ণ হয়ে ওঠে । অনেকগুলি থ্রেড রয়েছে এটি কার্যকরভাবে এর একটি সদৃশ - এটি ছিল আমার নিকটতমতমটি যা আমি দুই মিনিটের মধ্যে খুঁজে পেতে পারি
ম্যাক্রো

3
এটি কেবলমাত্র ম্যাক্রো @ ম্যাক্রো থ্রেডের মধ্যে থাকা বিপরীত সমস্যার এক ধরণের, তবে কারণগুলি খুব মিল।
পিটার ফ্লুম

3
@ ম্যাক্রো, আমি মনে করি আপনি ঠিক বলেছেন যে এটি একটি সদৃশ হতে পারে তবে আমি মনে করি যে এখানে সমস্যাটি উপরের দুটি প্রশ্নের চেয়ে কিছুটা আলাদা। ওপি সম্পূর্ণরূপে মডেলের তাত্পর্যকে উল্লেখ করে না, বা ভেরিয়েবলগুলি অ-উল্লেখযোগ্য ডাব্লু / অতিরিক্ত চতুর্থ হয়ে ওঠে। আমি সন্দেহ করি এটি মাল্টিকোলাইনারিটির বিষয়ে নয়, শক্তি বা সম্ভবত দমন সম্পর্কে।
গুং - মনিকা পুনরায়

3
এছাড়াও, @ গুং, একটি লিনিয়ার মডেলগুলিতে দমন কেবল তখনই ঘটে থাকে যখন কোলাইনারিটি থাকে - তফাতটি ব্যাখ্যার বিষয়ে, সুতরাং "এটি বহুবিশেষের বিষয়ে নয় তবে সম্ভবত দমন সম্পর্কে" একটি বিভ্রান্তিকর দ্বি
ম্যাক্রো

উত্তর:


78

যদিও কলিনারিটি (ভবিষ্যদ্বাণীকারী ভেরিয়েবলগুলির) একটি সম্ভাব্য ব্যাখ্যা, তবে আমি এটি প্রস্তাব করতে চাই যে এটি আলোকিত ব্যাখ্যা নয় কারণ আমরা জানি যে প্রচ্ছন্নতা ভবিষ্যদ্বাণীকারীদের মধ্যে "সাধারণ তথ্য" সম্পর্কিত, সুতরাং পক্ষ সম্পর্কে রহস্যজনক বা পাল্টা স্বজ্ঞাত কিছুই নেই মডেল মধ্যে একটি দ্বিতীয় সম্পর্কযুক্ত ভবিষ্যদ্বাণী পরিচয় করিয়ে দেওয়ার প্রভাব।

আসুন আমরা তখন দুটি ভবিষ্যদ্বাণীকের ক্ষেত্রে বিবেচনা করি যা সত্যিকার অর্থেগোণাল : তাদের মধ্যে কোনও মিল নেই col তাত্পর্যপূর্ণ একটি উল্লেখযোগ্য পরিবর্তন এখনও ঘটতে পারে।

ভেরিয়েবলগুলি এবং এবং এর ভবিষ্যদ্বাণীটির নাম দিন । বিরুদ্ধে রিগ্রেশনটি তাৎপর্যপূর্ণ হতে ব্যর্থ হবে যখন এর গড় চারপাশের পার্থক্যটি প্রশংসনীয়ভাবে হ্রাস না করা হবে যখন স্বাধীন ভেরিয়েবল হিসাবে ব্যবহৃত হয়। যে প্রকরণ জোরালোভাবে একটি দ্বিতীয় পরিবর্তনশীল সঙ্গে যুক্ত করা হয় যখন , তবে অবস্থা পরিবর্তন করে। এবং বিপরীতে একাধিক রিগ্রেশন সমানএক্স 2ওয়াই এক্স 1 ওয়াই এক্স 1 এক্স 2 ওয়াই এক্স 1 এক্স 2X1X2YYX1YX1X2YX1X2

  1. পৃথকভাবে এবং বিপরীতে ।এক্স 1 এক্স 2YX1X2

  2. প্রত্যাবর্তন বিরুদ্ধে অবশিষ্টাংশ অবশিষ্টাংশ।এক্স 1YX1

প্রথম পদক্ষেপের অবশিষ্টাংশগুলি 2 এর প্রভাব সরিয়ে নিয়েছে । যখন সাথে ঘনিষ্ঠভাবে সম্পর্কযুক্ত তখন এটি তুলনামূলকভাবে স্বল্প পরিমাণে প্রকারকে আগে মাস্ক করা হতে পারে exp যদি এই প্রকরণটি সাথে সম্পর্কিত হয় , তবে আমরা একটি উল্লেখযোগ্য ফলাফল পাই।এক্স 2 ওয়াই এক্স 1X2X2YX1


এগুলি সম্ভবত একটি দৃ concrete় উদাহরণ দিয়ে স্পষ্ট করা যেতে পারে। শুরু করার জন্য, আসুন Rকিছু স্বতন্ত্র এলোমেলো ত্রুটি সহ দুটি অर्थোগোনাল স্বতন্ত্র ভেরিয়েবল জেনারেশনের জন্য ব্যবহার করুন :ε

n <- 32
set.seed(182)
u <-matrix(rnorm(2*n), ncol=2)
u0 <- cbind(u[,1] - mean(u[,1]), u[,2] - mean(u[,2]))
x <- svd(u0)$u
eps <- rnorm(n)

( svdপদক্ষেপটি ম্যাট্রিক্সের দুটি কলামকে x( এবং ) , পরবর্তী ফলাফলগুলির সম্ভাব্য ব্যাখ্যা হিসাবে আশ্বাস দেয় ))এক্স 2X1X2

এরপরে, এর এবং ত্রুটির একটি লিনিয়ার সংমিশ্রণ হিসাবে তৈরি করুন । আমি পাল্টা স্বজ্ঞাত আচরণের উত্পাদন সহগের সমন্বয় করেছি:এক্সYX

y <-  x %*% c(0.05, 1) + eps * 0.01

এটি কেসের সাথে মডেলের উপলব্ধি ।n = 32YiidN(0.05X1+1.00X2,0.012)n=32

প্রশ্নে দুটি রিগ্রেশন দেখুন। প্রথম , প্রত্যাবর্তন বিরুদ্ধে শুধুমাত্র:এক্স 1YX1

> summary(lm(y ~ x[,1]))
...
             Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.002576   0.032423  -0.079    0.937
x[, 1]       0.068950   0.183410   0.376    0.710

0.710 এর উচ্চ পি-মানটি দেখায় যে সম্পূর্ণ অ-তাত্পর্যপূর্ণ।X1

পরবর্তী , প্রত্যাবর্তন বিরুদ্ধে এবং :এক্স 1 এক্স 2YX1X2

> summary(lm(y ~ x))
...
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.002576   0.001678  -1.535    0.136    
x1           0.068950   0.009490   7.265 5.32e-08 ***
x2           1.003276   0.009490 105.718  < 2e-16 ***

হঠাৎ, উপস্থিতিতে , হয় জোরালোভাবে উল্লেখযোগ্য, যেমন উভয় ভেরিয়েবল জন্য কাছাকাছি-শূন্য P-মান দ্বারা নির্দেশিত।এক্স 1X2X1

উপরের একাধিক রিগ্রেশন-র দ্বি-পদক্ষেপের বৈশিষ্ট্যগুলিতে ব্যবহৃত অবশিষ্টাংশগুলির সাথে , এবং ভেরিয়েবলগুলির একটি স্ক্র্যাটারপ্লট ম্যাট্রিক্সের মাধ্যমে আমরা এই আচরণটি কল্পনা করতে পারি । যেহেতু এবং অরথোগোনাল, তাই অবশিষ্টাংশগুলি হবে এবং তাই পুনরায় দরকার নেই। আমরা 2 এর বিরুদ্ধে অবশিষ্টাংশগুলিকে স্ক্যাটারপ্লট ম্যাট্রিক্সে অন্তর্ভুক্ত করব, এই চিত্রটি প্রদান করে:এক্স 2 ওয়াই এক্স 1 এক্স 2 এক্স 1 এক্স 1 ওয়াই এক্স 2X1X2YX1X2X1X1YX2

lmy <- lm(y ~ x[,2])
d <- data.frame(X1=x[,1], X2=x[,2], Y=y, RY=residuals(lmy))
plot(d)

এখানে এর একটি প্রতিবেদন দেওয়া হচ্ছে (কিছুটা পূর্বশব্দ দিয়ে):

SPM

গ্রাফিক্সের এই ম্যাট্রিক্সটিতে চারটি সারি এবং চারটি কলাম রয়েছে, যা আমি উপরে থেকে এবং বাম থেকে ডানে গণনা করব।

লক্ষ্য করুন:

  • দ্বিতীয় সারির এবং প্রথম কলামে scatterplot এই ভবিষ্যতবক্তা এর orthogonality নিশ্চিত: লিস্ট স্কোয়ার লাইন অনুভূমিক এবং পারস্পরিক সম্পর্ক শূন্য।(X1,X2)

  • তৃতীয় সারি এবং প্রথম কলামে scatterplot সামান্য হলেও সম্পূর্ণরূপে তুচ্ছ সম্পর্কের প্রথম রিগ্রেশন দ্বারা রিপোর্ট প্রদর্শণ বিরুদ্ধে । (পারস্পরিক সম্পর্ক সহগ, , কেবলমাত্র )।ওয়াই এক্স 1 ρ 0.07(X1,Y)YX1ρ0.07

  • তৃতীয় সারি এবং দ্বিতীয় কলামের scatterplot মধ্যে দৃঢ় সম্পর্ক দেখায় এবং দ্বিতীয় স্বতন্ত্র ভেরিয়েবলের। (পারস্পরিক সম্পর্ক সহগ )।ওয়াই 0.996(X2,Y)Y0.996

  • চতুর্থ সারি মধ্যে সম্পর্ক পরীক্ষা করে অবশিষ্টাংশ এর (বিরুদ্ধে regressed ) এবং অন্যান্য ভেরিয়েবল:এক্স 2YX2

    • উল্লম্ব স্কেল দেখায় যে অবশিষ্টাংশ হয় (অপেক্ষাকৃত) বেশ ছোট: আমরা সহজে এর scatterplot মধ্যে তাদের দেখতে না পারে বিরুদ্ধে ।এক্স 2YX2

    • অবশিষ্টাংশ হয় জোরালোভাবে সঙ্গে সম্পর্কিত ( )। এর বিরুদ্ধে রিগ্রেশন পূর্বের এই লুকানো আচরণটি করেছে। ρ = 0.80 এক্স 2X1ρ=0.80X2

    • নির্মাণ করে, অবশিষ্টাংশ এবং মধ্যে আর কোনও সম্পর্ক নেই ।X2

    • এবং এই অবশিষ্টাংশগুলির মধ্যে সামান্য সম্পর্ক আছে ( )। এটি দেখায় যে কীভাবে অবশিষ্টাংশগুলি চেয়ে সম্পূর্ণ আলাদা আচরণ করতে পারে। এটা কিভাবে হঠাৎ রিগ্রেশন একটি উল্লেখযোগ্য অবদানকারী হিসেবে প্রকাশ করা যেতে পারে।ρ = 0.09Yρ=0.09X 1YX1

অবশেষে, এটি যে সহগের দুটি অনুমান ( সমান উভয় সমান , এর উদ্দেশ্য মান থেকে দূরে নয় ) কেবলমাত্র এবং অরথোগোনাল তাই একমত । নকশা করা পরীক্ষাগুলি বাদে অরথোগোনালটির পক্ষে ঠিক ধরে রাখা বিরল। অরথোগোনালিটি থেকে প্রস্থান সাধারণত সহগের অনুমানগুলি পরিবর্তিত করে। 0.06895 0.05 এক্স 1 এক্স 2X10.068950.05X1X2


সুতরাং, আমি বুঝতে পারি যে যে পরিবর্তনশীলতাটি ব্যাখ্যা করে তা ব্যাখ্যা করে । জন্য কি চেয়ে বেশি (আরও) তাৎপর্যপূর্ণ হওয়া দরকার ? বা তাত্পর্য ছাড়া কে তাৎপর্যপূর্ণ করা যায় ? এক্স 2 এক্স 2 এক্স 1 এক্স 1 এক্স 2X1X2X2X1X1X2
রোনাল্ড

@ রোনাল্ড, আমি বিশ্বাস করি যে আপনার প্রশ্নের উত্তর যথাক্রমে না এবং হ্যাঁ। আপনি এই উত্তরে উদাহরণটি সংশোধন করে খুঁজে বের করতে পারেন: মডেলটিতে সহগ (0.05 এবং 0.01) এবং কী হবে তা দেখতে মামলার সংখ্যা ( ) পরিবর্তন করুন। n=32
হুড়হুড়ি করে

23

আমি মনে করি যে এই সমস্যাটি আগে এই সাইটে মোটামুটি পুঙ্খানুপুঙ্খভাবে আলোচনা করা হয়েছে, আপনি যদি সন্ধান করতে চান তবে সেক্ষেত্রে। সুতরাং আমি সম্ভবত পরে অন্যান্য প্রশ্নের কয়েকটি লিঙ্কের সাথে একটি মন্তব্য যুক্ত করব, বা আমি যদি কিছু না পাই তবে একটি পূর্ণাঙ্গ ব্যাখ্যা দেওয়ার জন্য এটি সম্পাদনা করতে পারি।

দুটি মৌলিক সম্ভাবনা রয়েছে: প্রথমত, অন্যান্য চতুর্থটি কিছু অবশিষ্টাংশের পরিবর্তনশীলতা শোষণ করতে পারে এবং এভাবে প্রাথমিক IV এর পরিসংখ্যান পরীক্ষার শক্তি বৃদ্ধি করতে পারে। দ্বিতীয় সম্ভাবনাটি হ'ল আপনার একটি দমনকারী পরিবর্তনশীল। এটি একটি খুব পাল্টা স্বজ্ঞাত বিষয়, তবে আপনি এখানে *, এখানে বা এই দুর্দান্ত সিভি থ্রেডের কিছু তথ্য পেতে পারেন ।

* নোট করুন যে সপ্রেসার ভেরিয়েবলগুলি ব্যাখ্যা করে এমন অংশটি পেতে আপনাকে নীচে থেকে পুরো পথটি পড়তে হবে, আপনি কেবল সেখানে যেতে পারেন, তবে পুরো জিনিসটি পড়ে আপনাকে সেরা পরিবেশন করা হবে।


সম্পাদনা: প্রতিশ্রুতি অনুসারে, আমি অন্যান্য আইভি কীভাবে কিছু অবশিষ্টাংশের পরিবর্তনশীলতা শোষণ করতে পারি এবং এভাবে প্রাথমিক IV এর পরিসংখ্যানের পরীক্ষার শক্তি বৃদ্ধি করতে পারে সে সম্পর্কে আমার বক্তব্যের পূর্ণাঙ্গ ব্যাখ্যা যোগ করছি। @ হুবার একটি চিত্তাকর্ষক উদাহরণ যোগ করেছেন, তবে আমি ভেবেছিলাম যে আমি একটি প্রশংসামূলক উদাহরণ যুক্ত করতে পারি যা এই ঘটনাটিকে আলাদাভাবে ব্যাখ্যা করে, যা কিছু লোককে ঘটনাটিকে আরও স্পষ্টভাবে বুঝতে সহায়তা করে। তদতিরিক্ত, আমি দেখিয়েছি যে দ্বিতীয় চতুর্থটি আরও দৃ strongly়তার সাথে যুক্ত হতে হবে না (যদিও বাস্তবে এটি প্রায়শই এই ঘটনাটি ঘটবে) for

রিগ্রেশন মডেলের কোভেরিয়্যটগুলি প্যারামিটারের প্রাক্কলনটিকে তার স্ট্যান্ডার্ড ত্রুটি দ্বারা ভাগ করে টেস্টেটের মাধ্যমে পরীক্ষা করা যেতে পারে, বা স্কোমের যোগফলগুলি বিভাজন করে তাদের স্টেটস দিয়ে পরীক্ষা করা যেতে পারে । যখন তৃতীয় এসএস টাইপ ব্যবহৃত হয়, এই দুটি পরীক্ষার পদ্ধতি সমতুল্য হবে (এসএস এবং সম্পর্কিত পরীক্ষার ধরণের বিষয়ে আরও জানতে, আমার উত্তরটি এখানে পড়তে সহায়তা করতে পারে: টাইপ আই এসএসকে কীভাবে ব্যাখ্যা করবেন )। যারা কেবল রিগ্রেশন পদ্ধতি সম্পর্কে শিখতে শুরু করেছেন তাদের জন্য, টেস্টগুলি প্রায়শই ফোকাস হয় কারণ এগুলি লোকেদের বোঝা সহজ বলে মনে হয়। যাইহোক, এটি এমন একটি ক্ষেত্রে যেখানে আমি মনে করি আনোভা টেবিলটি তাকানো আরও সহায়ক। আসুন একটি সাধারণ রিগ্রেশন মডেলের জন্য বেসিক আনোভা টেবিলটি স্মরণ করিয়ে দিন: F ttFt

SourceSSdfMSFx1(y^iy¯)21SSx1dfx1MSx1MSresResidual(yiy^i)2N(1+1)SSresdfresTotal(yiy¯)2N1

এখানে গড় হল , পর্যবেক্ষিত মান ইউনিট (যেমন, রোগীর) জন্য , ইউনিট জন্য মডেলের পূর্বাভাস মান , আর গবেষণায় ইউনিট মোট সংখ্যা। আপনার যদি দুটি অরথোগোনাল কোভারিয়েট সহ একাধিক রিগ্রেশন মডেল থাকে তবে আনোভা টেবিলটি এভাবে নির্মিত হতে পারে: y¯yyiyiy^iiN

SourceSSdfMSFx1(y^x1ix¯2y¯)21SSx1dfx1MSx1MSresx2(y^x¯1x2iy¯)21SSx2dfx2MSx2MSresResidual(yiy^i)2N(2+1)SSresdfresTotal(yiy¯)2N1

এখানে , উদাহরণস্বরূপ, ইউনিট জন্য পূর্বাভাস মান যদি তার পালন মান তার প্রকৃত পর্যবেক্ষিত মান ছিল, কিন্তু তার পালিত মান গড় ছিল । অবশ্যই, এটি সম্ভব যে হ'ল কিছু পর্যবেক্ষণের জন্য এর পর্যবেক্ষণকৃত মান , এই ক্ষেত্রে কোনও সামঞ্জস্য করার দরকার নেই, তবে এটি সাধারণত হবে না। নোট করুন যে আনোভা সারণী তৈরির জন্য এই পদ্ধতিটি কেবলমাত্র যদি বৈকল্পিক সমস্ত ভেরিয়েবল হয়; এটি এক্সপোজিটরি উদ্দেশ্যে তৈরি করা একটি অত্যন্ত সরলীকৃত কেস। y^x1ix¯2ix1x2x2x¯2 x2

যদি আমরা এমন পরিস্থিতিটি বিবেচনা করছি যেখানে এবং এর বাইরে উভয়ই কোনও মডেল ফিট করার জন্য একই ডেটা ব্যবহার করা হয় , তবে পর্যবেক্ষণ করা মান এবং একই হবে। সুতরাং, আনোভা উভয় টেবিলে মোট এসএস অবশ্যই একই হতে হবে। , যদি এবং একে অপরের কাছে orthogonal হয়, তবে উভয় এএনওভা টেবিলগুলিতে অভিন্ন হবে। সুতরাং, এটি কীভাবে আছে যে টেবিলের সাথে এর সাথে যুক্ত থাকতে পারে ? মোট এসএস এবং ? একই হলে তারা কোথা থেকে এসেছিল ? উত্তর যে তারা থেকেই এসেছে । এছাড়াও থেকে নেয়া হয়x2yy¯x1x2SSx1x2SSx1SSresdfx2dfres

এখন এর -test হয় দ্বারা বিভক্ত উভয় ক্ষেত্রেই। যেহেতু একই, এই পরীক্ষাটি তাৎপর্য পার্থক্য পরিবর্তন থেকে আসে , যা দুটি উপায়ে পরিবর্তিত হয়েছে কারণ কিছু বরাদ্দ করা হয়েছে এটা তার চেয়ে কম এস এস দিয়ে শুরু কিন্তু এগুলি কয়েকটি ডিএফ দ্বারা বিভক্ত, যেহেতু কিছু ডিগ্রি স্বাধীনতার পাশাপাশি বরাদ্দ করা হয়েছিল । তাৎপর্য / পাওয়ার পরিবর্তন -test (এবং equivalently -test এই ক্ষেত্রে) কিভাবে ঐ দুই পরিবর্তন বন্ধ ট্রেড করার হয়েছে। যদি আরও এসএস দেওয়া হয়Fx1MSx1MSresMSx1MSresx2x2Ftx2, মেক্সিকো সিটি যে দেওয়া হয় আপেক্ষিক , তারপর লাঘব হবে, যার ফলে সঙ্গে যুক্ত বাড়াতে ও আরো উল্লেখযোগ্য পরিণত হয়। x2MSresFx1p

এটি হওয়ার জন্য এর প্রভাব চেয়ে বড় হতে হবে না, তবে যদি তা না হয় তবে ভ্যালুতে স্থানান্তরগুলি বেশ ছোট হবে। অ-তাত্পর্য এবং তাত্পর্যটির মধ্যে এটি স্যুইচিংয়ের একমাত্র উপায় হ'ল যদি ভ্যালুগুলি আলফার উভয় দিকে সামান্য থাকে be এখানে কোডেড একটি উদাহরণ রয়েছে : x2x1ppR

x1 = rep(1:3, times=15)
x2 = rep(1:3, each=15)
cor(x1, x2)     # [1] 0
set.seed(11628)
y       = 0 + 0.3*x1 + 0.3*x2 + rnorm(45, mean=0, sd=1)
model1  = lm(y~x1)
model12 = lm(y~x1+x2)

anova(model1)
#  ...
#           Df Sum Sq Mean Sq F value  Pr(>F)  
# x1         1  5.314  5.3136  3.9568 0.05307 .
# Residuals 43 57.745  1.3429                  
#  ...
anova(model12)
#  ...
#           Df Sum Sq Mean Sq F value  Pr(>F)  
# x1         1  5.314  5.3136  4.2471 0.04555 *
# x2         1  5.198  5.1979  4.1546 0.04785 *
# Residuals 42 52.547  1.2511                  
#  ...

আসলে, মোটেও তাৎপর্যপূর্ণ হতে হবে না। বিবেচনা: x2

set.seed(1201)
y       = 0 + 0.3*x1 + 0.3*x2 + rnorm(45, mean=0, sd=1)
anova(model1)
# ...
#           Df Sum Sq Mean Sq F value  Pr(>F)  
# x1         1  3.631  3.6310  3.8461 0.05636 .
# ...
anova(model12)
# ...
#           Df Sum Sq Mean Sq F value  Pr(>F)  
# x1         1  3.631  3.6310  4.0740 0.04996 *
# x2         1  3.162  3.1620  3.5478 0.06656 .
# ...

এগুলি নিশ্চিতভাবে @ whuber এর পোস্টে নাটকীয় উদাহরণের মতো কিছুই নয়, তবে তারা এখানে কী ঘটছে তা বুঝতে সহায়তা করতে পারে।


1
(+1) এর জন্য "প্রথমত, অন্যান্য IV কিছু অবশিষ্টাংশের পরিবর্তনশীলতা শোষণ করতে পারে এবং এভাবে প্রাথমিক IV এর পরিসংখ্যান পরীক্ষার শক্তি বাড়িয়ে তুলতে পারে", যা @ হুইবার একটি দুর্দান্ত উদাহরণ দিয়েছেন
ম্যাক্রো

(+1) শুরুতে আপনি তিনটি লিঙ্ক দিন। প্রথমটি (বাহ্যিক এক) দুর্ভাগ্যক্রমে ভাঙ্গা (404 ত্রুটি)। তা ছাড়া: আপনি বলছেন যে এখানে দুটি "দুটি সম্ভাব্য সম্ভাবনা" রয়েছে: যুক্ত দ্বিতীয় চতুর্থ প্রথম চতুর্থটি পরীক্ষা করার শক্তি বাড়ায় (এবং হুবুবার এবং ওয়েনের উত্তরগুলিতে এটি বর্ণিত পরিস্থিতিটি হ'ল) বা সেখানে সুপারপ্রেসার পরিবর্তনশীল রয়েছে or (কোনটি, বিটিডব্লিউ? প্রথম না দ্বিতীয়?) আমার প্রশ্ন: এগুলি কি সত্যিই দুটি স্বতন্ত্র পরিস্থিতি? অথবা এটি মূলত একই জিনিস, সম্ভবত কিছুটা ভিন্নভাবে দেখা হয়েছে? এটির উপর আপনি যদি প্রসারিত করতে পারেন তবে দুর্দান্ত হবে।
অ্যামিবা বলেছেন মনিকাকে


@ গুং, উত্তরের জন্য ধন্যবাদ টিএনফনস দমন এবং অন্যান্য কিছু সম্পর্কিত প্রভাব নিয়ে আলোচনা করা একটি কাগজের লিঙ্ক দিয়ে শুরু করে এবং এই কাগজটি দাবি করেছে যে "দমনকারী ভেরিয়েবলের সবচেয়ে সাধারণভাবে গৃহীত সংজ্ঞা (তেলগভ এবং হেনিক, 1991) []]" একটি পরিবর্তনশীল যা ভবিষ্যদ্বাণীমূলক বৈধতা বাড়ায় রিগ্রেশন সমীকরণের অন্তর্ভুক্তি দ্বারা অন্য পরিবর্তনশীল (বা ভেরিয়েবলের সেট) এর " এটি হ'ল ওপি এখানে যা জিজ্ঞাসা করেছিল ঠিক তেমনই মনে হয়, এজন্যই আপনি দু'টি আলাদা কারণ থাকতে পারে বলে আপনি বিভ্রান্ত হয়ে পড়েছিলেন ।
অ্যামিবা বলেছেন মনিকাকে

1
@ অ্যামিবা, মূল কথাটি হ'ল আপনার কাছে 2 টি পৃথক প্রক্রিয়া রয়েছে। অর্থাৎ আপনার 2 টি পৃথক অন্তর্নিহিত ডিএজি রয়েছে s বাহ্যিক প্রকাশ একই রকম হতে পারে, এবং অতিরিক্ত শক্তি কম-বেশি হতে পারে, তবে ২ য় ভেরিয়েবলের সাহায্যে বি / সি থেকে ২ য় ভেরিয়েবলের সম্পর্ক x1 ও y এর চেয়ে আলাদা হতে পারে। এটি পরিষ্কার না হলে আপনাকে নতুন প্রশ্ন জিজ্ঞাসা করতে হতে পারে; মন্তব্যগুলিতে খুব বেশি কাজ করা শক্ত।
গুং - মনিকা পুনরায়

17

এটি মনে হয় যে ওপির প্রশ্নটি দুটি ভিন্ন উপায়ে ব্যাখ্যা করা যায়:

  1. গাণিতিকভাবে, ওএলএস কীভাবে কাজ করে, যেমন একটি স্বাধীন ভেরিয়েবল যুক্ত করলে অপ্রত্যাশিতভাবে ফলাফল পরিবর্তন হতে পারে?

  2. কীভাবে একটি মডেলটিতে অন্য, স্বতন্ত্র ভেরিয়েবলের প্রভাব পরিবর্তনশীল যুক্ত করে আমার মডেলটি সংশোধন করতে পারবেন?

# 1 প্রশ্নের ইতিমধ্যে বেশ কয়েকটি ভাল উত্তর রয়েছে। এবং প্রশ্ন # 2 বিশেষজ্ঞদের কাছে এতটাই সুস্পষ্ট হতে পারে যে তারা ধরে নিচ্ছে যে ওপি অবশ্যই তার পরিবর্তে # 1 প্রশ্ন জিজ্ঞাসা করবে। তবে আমি মনে করি প্রশ্ন # 2 এর একটি উত্তর প্রাপ্য, যা এমন কিছু হবে:

একটি উদাহরণ দিয়ে শুরু করা যাক। বলুন যে আপনার বেশিরভাগ শিশুর উচ্চতা, বয়স, লিঙ্গ ইত্যাদি ছিল এবং আপনি তাদের দৈর্ঘ্যের পূর্বাভাস দেওয়ার জন্য একটি প্রতিরোধ করতে চেয়েছিলেন।

আপনি একটি নিষ্পাপ মডেল দিয়ে শুরু করেন যা জেন্ডারকে স্বাধীন ভেরিয়েবল হিসাবে ব্যবহার করে। এবং এটি পরিসংখ্যানগতভাবে তাৎপর্যপূর্ণ নয়। (এটি কীভাবে হতে পারে, আপনি 3 বছরের বাচ্চা এবং কিশোর-বয়সীদের মিশ্রিত করছেন))

তারপরে আপনি বয়সের সাথে যুক্ত হন এবং হঠাৎই কেবল বয়সটি গুরুত্বপূর্ণ নয়, তবে এটি লিঙ্গও। এটা কিভাবে হতে পারে?

অবশ্যই, আমার উদাহরণে, আপনি পরিষ্কারভাবে দেখতে পারেন যে বয়স বাচ্চা / কিশোরের উচ্চতার এক গুরুত্বপূর্ণ কারণ। সম্ভবত আপনার কাছে ডেটা রয়েছে এমন সবচেয়ে গুরুত্বপূর্ণ ফ্যাক্টর। জেন্ডার বিশেষত বড় বাচ্চাদের এবং প্রাপ্তবয়স্কদের ক্ষেত্রেও গুরুত্বপূর্ণ, তবে একমাত্র লিঙ্গ একটি শিশু কতটা লম্বা তার দুর্বল মডেল।

বয়স প্লাস লিঙ্গ একটি যুক্তিসঙ্গত (যদিও অবশ্যই সরলীকৃত) মডেল যা কাজের জন্য পর্যাপ্ত। যদি আপনি অন্যান্য ডেটা যুক্ত করেন - বয়স এবং লিঙ্গ, ডায়েট, পিতামাতার উচ্চতা ইত্যাদির মিথস্ক্রিয়া - আপনি আরও ভাল একটি মডেল তৈরি করতে পারেন যা অবশ্যই কোনও শিশুর উচ্চতা নির্ধারণকারী কারণগুলির তুলনায় এখনও সরল করা যেতে পারে, তবে তারপরে আবার সমস্ত মডেল বাস্তবের সরলিকৃত সংস্করণ। (বিশ্বের মানচিত্র যা 1: 1 স্কেল কোনও ভ্রমণকারীদের পক্ষে খুব কার্যকর নয়))

আপনার মূল মডেল (কেবলমাত্র লিঙ্গ) খুব সরলীকৃত - এত সরলীকৃত যে এটি মূলত ভেঙে গেছে। তবে এর অর্থ এই নয় যে আরও ভাল মডেলটিতে লিঙ্গ কার্যকর নয়।

সম্পাদনা: গুং এর পরামর্শ পুনরায় যুক্ত: বয়স এবং লিঙ্গ এর মিথস্ক্রিয়া শব্দ।


1
+1, এনবি, বয়স এবং লিঙ্গ সম্ভবত একটি ইন্টারঅ্যাকশন শব্দও প্রয়োজন হবে।
গুং - মনিকা পুনরায়

1
+1 এটি একটি দুর্দান্ত উদাহরণ কারণ এটি এত সহজ এবং স্বজ্ঞাতভাবে স্পষ্ট, এবং একই সাথে আরও বিশদে বর্ণিত অবস্থার সাথে ঠিক ফিট করে তবে কেবল এখানে তার গ্রহণযোগ্য উত্তরে @ ভুবার দ্বারা বিমূর্ত।
অ্যামিবা বলেছেন মনিকাকে

10

এই থ্রেডটিতে ইতিমধ্যে তিনটি দুর্দান্ত উত্তর রয়েছে (প্রত্যেকের কাছে +1)। আমার উত্তরটি @ গুং (যেটি বুঝতে আমাকে কিছুটা সময় নিয়েছিল) দ্বারা তৈরি করা বিন্দুটির একটি বর্ধিত মন্তব্য এবং চিত্রণ:

দুটি মৌলিক সম্ভাবনা রয়েছে: প্রথমত, অন্যান্য চতুর্থটি কিছু অবশিষ্টাংশের পরিবর্তনশীলতা শোষিত করতে পারে এবং এভাবে প্রাথমিক IV এর পরিসংখ্যান পরীক্ষার শক্তি বৃদ্ধি করতে পারে। দ্বিতীয় সম্ভাবনাটি হ'ল আপনার একটি দমনকারী পরিবর্তনশীল।

আমার জন্য, একাধিক রিগ্রেশন সম্পর্কে ভাবার সবচেয়ে পরিষ্কার ধারণাটি হ'ল জ্যামিতিক। দুটি IVs এবং এবং একটি ডিওয়াই । সেগুলি কেন্দ্রিক হতে দিন, যাতে আমাদের বাধা দেওয়ার বিষয়ে যত্ন নেওয়া প্রয়োজন না care তারপরে যদি আমাদের ডেটাসেটে ডাটা পয়েন্ট থাকে তবে তিনটি ভেরিয়েবলকে ভেক্টর হিসাবে কল্পনা করা যায় ; প্রতিটি ভেক্টরের দৈর্ঘ্য তারতম্যের সাথে মিলে যায় এবং তাদের যে কোনও একটির মধ্যকার কোণটি পারস্পরিক সম্পর্কের সাথে মিলে যায়। গুরুতরভাবে, একাধিক ওএলএস রিগ্রেশন সম্পাদন করা dependent এবং দ্বারা বিস্তৃত বিমানটিতে নির্ভরশীল পরিবর্তনশীল উপস্থাপন করা ছাড়া আর কিছুই নয় isx1x2ynRnyx1x2("হ্যাট ম্যাট্রিক্স" কেবল প্রজেক্টর হিসাবে)। এই পদ্ধতির সাথে অচেনা পাঠকগণ দেখতে পারেন উদাহরণস্বরূপ স্ট্যাটিস্টিকাল লার্নিং এর উপাদানসমূহ , বিভাগ 3.2, বা অন্য অনেক বইতে।

"এনহান্সমেন্ট"

নিম্নলিখিত চিত্রটি @ গুং দ্বারা তালিকাভুক্ত উভয় সম্ভাবনা দেখায়। প্রথমে কেবল নীল অংশটি বিবেচনা করুন (যেমন সমস্ত লাল রেখা উপেক্ষা করুন):

বর্ধন এবং দমন

এখানে এবং হ'ল orthogonal পূর্বাভাসকারী একটি বিমান বিস্তৃত ("প্লেন " নামে পরিচিত )। নির্ভরশীল ভেরিয়েবল এই বিমানের উপরে প্রজেক্ট করা হয় এবং এর প্রজেকশন ওডি হ'ল যা সাধারণত । তারপরে ওডিটি বিভক্ত হয় অফ (আইভি 1 এর অবদান) এবং ওই (আইভি 2 এর অবদান)। মনে রাখবেন যে OE OF এর চেয়ে অনেক বেশি দীর্ঘ।x1x2Xyy^

এখন কল্পনা করুন যে কোনও দ্বিতীয় ভবিষ্যদ্বাণী নেই । Regressing সম্মুখের পাশাপাশি সম্মুখের দিকে এটি জরিপ স্থাপিত হবে। কিন্তু কোণ এওসি ( ) ; একটি উপযুক্ত পরিসংখ্যান পরীক্ষার সিদ্ধান্তে উপনীত হবে যে এবং মধ্যে প্রায় কোনও সংযোগ নেই এবং সেই তাই তাত্পর্যপূর্ণ নয়।x2yx1α90yx1x1

যখন হয় তখন এর অভিক্ষেপটি পরিবর্তন হয় না (কারণ এবং orthogonal)। যাইহোক, তাৎপর্যপূর্ণ কিনা তা পরীক্ষা করার জন্য আমাদের এখন পরে কী রেখে গেছে তা দেখতে হবে । দ্বিতীয় ভবিষ্যদ্বাণী কেবলমাত্র একটি ছোট অংশ ইসি , বড় অংশ ব্যাখ্যা করে। স্পষ্টতার জন্য, আমি এই ভেক্টরটিকে মূলটিতে অনুলিপি করে এটিকে ওজি বলেছিলাম: লক্ষ্য করুন যে জিওএফ ( ) angle চেয়ে অনেক ছোট । এটি পরীক্ষার পক্ষে সহজেই শেষ হতে পারে যে এটি " চেয়ে উল্লেখযোগ্যভাবে ছোট ", অর্থাৎx2x1x2x1x2x2yβα90x1 এখন একটি গুরুত্বপূর্ণ ভবিষ্যদ্বাণী।

এটি রাখার আরেকটি উপায় হ'ল পরীক্ষাটি এখন ওজি-র দৈর্ঘ্যের তুলনা করছে, ওসির সাথে আগের মতো নয়; ওসির তুলনায় অফ হ'ল ক্ষুদ্র এবং "তুচ্ছ" তবে ওজির তুলনায় "তাত্পর্যপূর্ণ" হওয়ার পক্ষে এটি যথেষ্ট বড়।

এই ঠিক @whuber, @gung, এবং তাদের উত্তর @Wayne দ্বারা উপস্থাপিত অবস্থা। আমি জানি না যে এই প্রভাবটির রিগ্রেশন সাহিত্যে কোনও মানক নাম আছে কিনা তাই আমি এটিকে "বর্ধন" বলব।

চাপাচাপি

লক্ষ্য করুন যে উপরের দিকে, যদি তবে ; অন্য কথায়, "বর্ধন" কেবলমাত্র উল্লেখযোগ্য ভবিষ্যদ্বাণী সনাক্ত করার শক্তি বাড়িয়ে তুলতে পারে, তবে যদি এর প্রভাবটি একদম শূন্য হয়, তবে এটি ঠিক শূন্য থাকবে।α=90β=90x1

দমনে তাই নয়।

কল্পনা করুন আমরা যোগ যে করার (পরিবর্তে ) - অঙ্কন লাল অংশ বিবেচনা করুন। ভেক্টর একই সমতল , তবে এটি (অর্থাত্ সাথে সম্পর্কিত ) । যেহেতু প্লেনটি আগের মতো একই, তাই এর প্রজেকশন একই থাকে। যাইহোক, উভয় ভবিষ্যদ্বাণীকের অবদানের মধ্যে ওডিকে পচিয়ে মারাত্মকভাবে পরিবর্তিত হয়: এখন ওডিটি 'ও ওই'তে বিভক্ত হয়ে যায়।x3x1x2x3Xx1x3x1Xy

আগের চেয়ে OF''র চেয়ে বেশি লম্বা হওয়া লক্ষ্য করুন। একটি পরিসংখ্যানগত পরীক্ষা E'C এর সাথে 'OF'র দৈর্ঘ্যের তুলনা করে এবং এই সিদ্ধান্তে পৌঁছে যে এর অবদান গুরুত্বপূর্ণ। এর অর্থ হল যে একটি predictor আছে ঠিক সঙ্গে শূন্য পারস্পরিক সম্পর্ক সক্রিয় আউট একটি উল্লেখযোগ্য predictor যাবে। এই পরিস্থিতিটি (অত্যন্ত বিভ্রান্তিকরভাবে, আমার মতে!) "দমন" হিসাবে পরিচিত; এখানে কেন তা দেখুন: নিপীড়নের ক্ষেত্রে দমন প্রভাব: সংজ্ঞা এবং চাক্ষুষ ব্যাখ্যা / চিত্র - @ পিটিএনএফএনএস এখানে আমার অনুরূপ প্রচুর পরিসংখ্যান সহ তার দুর্দান্ত উত্তরটি চিত্রিত করে (কেবল আরও ভাল সম্পন্ন)।x1x1y


1
জ্যামিতিক ব্যাখ্যার সহায়তায় আপনার উত্তরটি আমি বোঝার পক্ষে সবচেয়ে সহজ হিসাবে খুঁজে পেয়েছি। চমত্কার!
zsljulius

1
সহায়ক উদাহরণের জন্য +1। আমি আপনার 'বর্ধন' বিভাগটি অনুসরণ করি, তবে 'দমন' বিভাগটি অনুসরণ করি না। Q1, যদি , তবে এর অর্থ অক্ষের উপরে থাকবে না , অর্থাত্ একাধিক , এবং তাই ? Q2 এর, কিভাবে এই অংশ একটি চিত্রণ 'একটি predictor হয় আছে সঙ্গে ঠিক শূন্য পারস্পরিক সম্পর্ক '? এখনও এই বিভাগে এর সাথে সম্পর্কিত । আমি কি ভুল বুঝেছি? y x 1 y x 1 c o r ( x 1 , y ) = 1 x 1 y y x 1α=0yx1yx1cor(x1,y)=1x1yyx1
Qoheleth

@ কোহেলেথ লক্ষ্য করার জন্য আপনাকে ধন্যবাদ। এই অনুচ্ছেদে এটি হওয়া উচিত । আমি ঠিক করতে সম্পাদনা করব। α=90
অ্যামিবা বলেছেন মনিকা
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.