কেন এই রিগ্রেশন আনোভা টেবিলগুলি অভিন্ন?


11

আমার একই গ্রুপ এবং তিন স্তরের এক্সের দুটি সংক্ষেপ রয়েছে, সামগ্রিকভাবে এন = 15, প্রতিটি গ্রুপ বা এক্সের স্তরে এন = 5 সহ প্রথম রেগ্রেশন এক্সকে শ্রেণীবদ্ধ হিসাবে গণ্য করে, সূচক ভেরিয়েবলগুলি স্তর 2 এবং 3 স্তরের সাথে নির্ধারিত করে একটি হচ্ছে রেফারেন্স। সূচক / ডামিগুলি এর মতো: X1 = 1 যদি স্তর = 2, 0 অন্যথায় এক্স 2 = 1 যদি স্তর = 3, 0 অন্যথায়

ফলস্বরূপ আমার লাগানো মডেলটি দেখতে এমন কিছু দেখাচ্ছে: y = b0 + b1 (x1) + বি 2 (এক্স 2)

আমি রিগ্রেশন চালাই এবং আউটপুটটিতে ভেরিয়েন্স সারণির এই বিশ্লেষণ অন্তর্ভুক্ত:

টেবিল

বাকি আউটপুট এখানে অপ্রাসঙ্গিক।

ঠিক আছে তাই এখন আমি একই তথ্য উপর একটি পৃথক regression চালান। আমি শ্রেণিবদ্ধ বিশ্লেষণটি খনন করি এবং এক্সকে অবিচ্ছিন্ন হিসাবে গণ্য করি, তবে আমি সমীকরণের ক্ষেত্রে একটি পরিবর্তনশীল যুক্ত করছি: এক্স ^ 2, এক্স এর বর্গ। সুতরাং এখন আমার নিচের মডেলটি রয়েছে: y = b0 + b1 (এক্স) + বি 2 (এক্স) ^ 2

যদি আমি এটি চালনা করি তবে এটি উপরে বর্ণনীয় টেবিলের একই সঠিক বিশ্লেষণকে ছুঁড়ে ফেলেছে। এই দুটি প্রতিরোধ কেন একই টেবিলগুলিতে উত্থান দেয়?

[এই ছোট্ট ধাঁধার জন্য ক্রেডিট ক্যালিফোর্নিয়া লস অ্যাঞ্জেলেসের বিশ্ববিদ্যালয়ের বায়োস্টাটিক্স বিভাগে টমাস বেলিনের কাছে যায়।]


আমি মনে করি আপনি যে কোডটি "রিগ্রেশনটি করেন" এবং সম্ভবত আপনি যে ডেটা টেবিলটি পরিচালনা করছেন তার তৈরি করতে আপনি যে ডেটা পদক্ষেপটি (আমার কাছে এসএএস আউটপুট বলে মনে হচ্ছে) দেখাবেন।
ব্র্যাড এস

1
@ ব্র্যাড আমি এটিকে প্রয়োজনীয় মনে করি না: পরিস্থিতিটি স্পষ্টভাবে বর্ণিত হয়েছে এবং যা চলছে তা ব্যাখ্যা করার জন্য আর কোনও তথ্যের প্রয়োজন নেই।
শুক্র

@ শুভ আমার ধারণা, আপনি যদি এটি বলেন তবে এটি আমার কাছে প্রোগ্রামিং ত্রুটির মতো মনে হচ্ছে। আমি তোমার জবাবের অপেক্ষা করছি.
ব্র্যাড এস

1
@ ব্র্যাড কোনও প্রোগ্রামিং ত্রুটি নয়: আমি আমার ব্যাখ্যা পোস্ট করেছি। আসল পরিসংখ্যানগত আগ্রহ (এবং প্রয়োগযোগ্যতা) সহ এটি একটি ভাল প্রশ্ন।
whuber

আরে ব্র্যাড, এটি আসলে একটি সমস্যা সেট থেকে এসেছে - পরিস্থিতিটি আমি আপনাকে ছেলেদেরকে যেভাবে দিয়েছিলাম সেভাবে আমাকে দেওয়া হয়েছিল, এবং প্রশ্নটি একইভাবে তুলে ধরেছিল: "তারা কেন একই হবে?"। এটি ঠিক কীভাবে রেখেছি: দুটি মডেল, একই আনোভা টেবিল, বাকি আউটপুট এমনকি দেওয়া হয়নি ("অপ্রাসঙ্গিক" না বলে আমার এটি পরিষ্কার করা উচিত ছিল)।
লগজমিন

উত্তর:


22

ম্যাট্রিক্সের ক্ষেত্রে আপনার মডেলগুলি স্বাভাবিক ফর্ম । E[Y]=Xβ

প্রথম মডেল সারি প্রথম গ্রুপের একটি উপাদান প্রতিনিধিত্ব করে মধ্যে , পথিমধ্যে, বিভাগ 2 জন্য নির্দেশক এবং নির্দেশকের বিভাগ 3. জন্য এটা দ্বিতীয়টি গ্রুপের একটি উপাদান প্রতিনিধিত্ব করে সংশ্লিষ্ট সারি এবং তৃতীয় গোষ্ঠীর একটি উপাদান ।এক্স ( 1 , 1 , 0 ) ( 1 , 0 , 1 )(1,0,0)X(1,1,0)(1,0,1)

দ্বিতীয় মডেল পরিবর্তে সারি ব্যবহার করে , , এবং যথাক্রমে।( 1 , 2 , 2 2 ) = ( 1 , 2 , 4 ) ( 1 , 3 , 3 2 ) = ( 1 , 3 , 9 )(1,1,12)=(1,1,1)(1,2,22)=(1,2,4)(1,3,32)=(1,3,9)

আসুন ফলাফলের মডেলকে ম্যাট্রিককে এবং বলি । এগুলি কেবল সম্পর্কিত: একের কলামগুলি অন্যটির কলামগুলির লিনিয়ার সংমিশ্রণ। উদাহরণস্বরূপ, যাকএক্স 2X1X2

V=(111013028).

তারপর থেকে

(100110101)V=(111124139),

এটা যে অনুসরণ করে

X1V=X2.

মডেলগুলি নিজেরাই তাই সম্পর্কিত

X1β1=E[Y]=X2β2=(X1V)β2=X1(Vβ2).

β2

β1=Vβ2.

একই সম্পর্কটি তাদের ন্যূনতম স্কোয়ার অনুমানের জন্য ধারণ করে। এটি দেখায় যে মডেলগুলির অভিন্ন ফিট রয়েছে : তারা কেবল তাদের আলাদাভাবে প্রকাশ করে।

যেহেতু দুটি মডেলের ম্যাট্রিকের প্রথম কলামগুলি একই, সুতরাং যে কোনও আনোভা সারণী প্রথম কলাম এবং বাকী কলামগুলির মধ্যে বৈচিত্রকে পচে change একটি আনোভা টেবিল যা দ্বিতীয় এবং তৃতীয় কলামগুলির মধ্যে পার্থক্য করে, যদিও তা কীভাবে ডেটা এনকোড করা হয় তার উপর নির্ভর করবে।

R15X1X2


উদাহরণস্বরূপ, এখানে আপনার মত ডেটা রয়েছে (তবে বিভিন্ন প্রতিক্রিয়া সহ) এবং উত্পন্ন হিসাবে সম্পর্কিত বিশ্লেষণ R

set.seed(17)
D <- data.frame(group=rep(1:3, each=5), y=rnorm(3*5, rep(1:3, each=5), sd=2))

দুটি মডেল ফিট করুন:

fit.1 <- lm(y ~ factor(group), D)
fit.2 <- lm(y ~ group + I(group^2), D)

তাদের আনোভা সারণী প্রদর্শন করুন:

anova(fit.1)
anova(fit.2)

প্রথম মডেলের জন্য আউটপুট হয়

              Df Sum Sq Mean Sq F value   Pr(>F)    
factor(group)  2 51.836  25.918  14.471 0.000634 ***
Residuals     12 21.492   1.791 

দ্বিতীয় মডেলের জন্য এটি

           Df Sum Sq Mean Sq F value    Pr(>F)    
group       1 50.816  50.816 28.3726 0.0001803 ***
I(group^2)  1  1.020   1.020  0.5694 0.4650488    
Residuals  12 21.492   1.791  

আপনি দেখতে পাচ্ছেন যে বর্গাকার অবশিষ্টাংশগুলি একই। দ্বিতীয় মডেলটিতে প্রথম দুটি সারি যুক্ত করে আপনি একই ডিএফ এবং বর্গের সমষ্টি পাবেন, যা থেকে একই গড় বর্গ, এফ মান এবং পি-মান গণনা করা যায়।

পরিশেষে, এর সহগের প্রাক্কলনগুলির তুলনা করা যাক।

beta.1.hat <- coef(fit.1)
beta.2.hat <- coef(fit.2)

আউটপুট হয়

(Intercept) factor(group)2 factor(group)3 
  0.4508762      2.8073697      4.5084944 

(Intercept)       group  I(group^2) 
 -3.4627385   4.4667371  -0.5531225 

V

(111013028)(3.46273854.46673710.5531225)=(0.45087622.80736974.5084944).

দাবী অনুসারে ফিটগুলিও একই রকম।


6
পবিত্র ধূমপান, মানুষ। আমি ইন্টারনেটকে কোনও প্রশ্ন জিজ্ঞাসা করে এর থেকে বেশি বিবেচনা করা হয়নি, এর পূর্ণ উত্তর পেয়েছি। আপনাকে গুরুতরভাবে x1000 ধন্যবাদ।
লগজমিন

আমাদের সাইটে আপনাকে স্বাগতম! আমি আশা করি আপনি এটি ব্যবহার অব্যাহত রেখেছেন এবং আপনার অবদানের অপেক্ষায় রয়েছেন।
whuber

1
আমি আজ কিছু শিখেছি! (upvated)
ব্র্যাড এস

আশ্চর্যজনক উত্তর। মন উড়িয়ে!
কেদার্পস

5

সংক্ষেপে, উভয় মডেল এই অর্থে পরিপূর্ণ হয় যে তারা এক্স এর সমস্ত 3 স্তরে প্রতিক্রিয়াটির অনন্য অভিজ্ঞতামূলক ভবিষ্যদ্বাণী সরবরাহ করে model চতুর্ভুজ সূত্র যে কোনও 3 পয়েন্টকে ছেদ করতে পারে। বৈসাদৃশ্যগুলি পৃথক হলেও উভয়ই মডেলটিতে কেবলমাত্র একটি ইন্টারসেপ্ট মডেলের নাল বিরুদ্ধে বৈশ্বিক পরীক্ষাটি অভিন্ন ধারণা দেয়।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.