লিনিয়ার রিগ্রেশন-এ, যখন আমরা কেবল ইন্টারঅ্যাকশন শর্তাদিতে আগ্রহী তখন কেন আমরা চতুর্ভুজ শর্তাদি অন্তর্ভুক্ত করব?


10

ধরুন আমি লিনিয়ার রিগ্রেশন মডেলটির জন্য আগ্রহী

Yi=β0+β1x1+β2x2+β3x1x2
, কারণ আমি দেখতে চাই যে দুটি সিভিলিয়ারেটের মধ্যে একটি মিথস্ক্রিয়া ওয়াইয়ের উপর প্রভাব ফেলে কিনা if

প্রফেসরদের কোর্সের নোটগুলিতে (যার সাথে আমার যোগাযোগ নেই) এটিতে বলা হয়েছে: ইন্টারঅ্যাকশন শর্তাদি অন্তর্ভুক্ত করার সময় আপনার তাদের দ্বিতীয় ডিগ্রি শর্তাদি অন্তর্ভুক্ত করা উচিত। অর্থাত

Yi=β0+β1x1+β2x2+β3x1x2+β4x12+β5x22
রিগ্রেশন অন্তর্ভুক্ত করা উচিত।

যখন আমরা কেবল ইন্টারঅ্যাকশনগুলিতে আগ্রহী তখন কেন দ্বিতীয় ডিগ্রি শর্তাদি অন্তর্ভুক্ত করা উচিত?


7
যদি মডেল থাকে x1x2এটি অন্তর্ভুক্ত করা উচিত x1 এবং x2। কিন্তুx12 এবং x22.চ্ছিক।
ব্যবহারকারী 158565

6
আপনার অধ্যাপকের মতামত অস্বাভাবিক বলে মনে হচ্ছে। এটি কোনও বিশেষ পটভূমি বা অভিজ্ঞতার সেট থেকে উদ্ভূত হতে পারে, কারণ "উচিত" অবশ্যই সর্বজনীন প্রয়োজন নয়। আপনি কিছু আগ্রহী হতে পারে stats.stackexchange.com/questions/11009 খুঁজে পেতে পারেন।
হোবার

@ ইউজার 158565 হাই! আমাদেরও কেন অন্তর্ভুক্ত করা উচিত তা জিজ্ঞাসা করতে পারিx1 এবং x2? আমি আসলে এটি ভাবিনি তবে এখন আপনি এটি উল্লেখ করেছেন ..!
বোকা 126

@ শুভেচ্ছা! লিঙ্কের জন্য ধন্যবাদ! আমি মনে করি মূল প্রভাবটি অন্তর্ভুক্ত করাটি বোধগম্য হয় তবে দ্বিতীয় ক্রমের শর্তাদি অন্তর্ভুক্ত করার ক্ষেত্রে আমার এটির প্রসারিত করতে সমস্যা হয়। // ইউজার 158565 আমি মনে করি উপরের লিঙ্কটি উত্তর দিয়েছে যে, আপনাকে ধন্যবাদ!
বোকা 126

আপনি কি দয়া করে ডেটাতে একটি লিঙ্ক পোস্ট করবেন?
জেমস ফিলিপস

উত্তর:


8

এটি নির্ভর করে লক্ষ্য নির্ভর করে। আপনি যদি কোনও ইন্টারঅ্যাকশন বিদ্যমান কিনা তা উদাহরণস্বরূপ, কার্যকারণ প্রসঙ্গে (বা আরও সাধারণভাবে, যদি আপনি ইন্টারঅ্যাকশন সহগটি ব্যাখ্যা করতে চান), আপনার প্রফেসরের এই সুপারিশটি কোনও অর্থবোধ করে না এবং এটি থেকে আসে সত্য যে কার্মিক ফর্ম misspecification মিথষ্ক্রিয়া ভুল মতামতে উপনীত হতে পারে

এখানে একটি সাধারণ উদাহরণ যেখানে কোনও ইন্টারঅ্যাকশন শব্দ নেই x1 এবং x2 কাঠামোগত সমীকরণে y, তবুও, আপনি যদি এর চতুর্ভুজ পদটি অন্তর্ভুক্ত না করেন x1, আপনি ভুলভাবে এটি সিদ্ধান্ত নিতে হবে x1 সাথে ইন্টারেক্ট করে x2 আসলে যখন এটা না।

set.seed(10)
n <- 1e3
x1 <- rnorm(n)
x2 <- x1 + rnorm(n)
y <- x1 + x2 + x1^2 + rnorm(n)
summary(lm(y ~ x1 + x2 + x1:x2))

Call:
lm(formula = y ~ x1 + x2 + x1:x2)

Residuals:
    Min      1Q  Median      3Q     Max 
-3.7781 -0.8326 -0.0806  0.7598  7.7929 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.30116    0.04813   6.257 5.81e-10 ***
x1           1.03142    0.05888  17.519  < 2e-16 ***
x2           1.01806    0.03971  25.638  < 2e-16 ***
x1:x2        0.63939    0.02390  26.757  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.308 on 996 degrees of freedom
Multiple R-squared:  0.7935,    Adjusted R-squared:  0.7929 
F-statistic:  1276 on 3 and 996 DF,  p-value: < 2.2e-16

এটি কেবল বাদ দেওয়া পরিবর্তনশীল পক্ষপাতিত্বের একটি মামলা হিসাবে ব্যাখ্যা করা যেতে পারে এবং এখানে x12বাদ দেওয়া পরিবর্তনশীল। যদি আপনি ফিরে যান এবং আপনার প্রতিরোধের ক্ষেত্রে স্কোয়ার শব্দটি অন্তর্ভুক্ত করেন তবে আপাত মিথস্ক্রিয়া অদৃশ্য হয়ে যায়।

summary(lm(y ~ x1 + x2 + x1:x2 + I(x1^2)))   

Call:
lm(formula = y ~ x1 + x2 + x1:x2 + I(x1^2))

Residuals:
    Min      1Q  Median      3Q     Max 
-3.4574 -0.7073  0.0228  0.6723  3.7135 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.0419958  0.0398423  -1.054    0.292    
x1           1.0296642  0.0458586  22.453   <2e-16 ***
x2           1.0017625  0.0309367  32.381   <2e-16 ***
I(x1^2)      1.0196002  0.0400940  25.430   <2e-16 ***
x1:x2       -0.0006889  0.0313045  -0.022    0.982    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.019 on 995 degrees of freedom
Multiple R-squared:  0.8748,    Adjusted R-squared:  0.8743 
F-statistic:  1739 on 4 and 995 DF,  p-value: < 2.2e-16

অবশ্যই, এই যুক্তিটি কেবল চতুর্ভুজ শর্তগুলির ক্ষেত্রেই প্রযোজ্য নয়, তবে সাধারণভাবে কার্যকরী ফর্মের অপব্যবহার। কথোপকথনটি মূল্যায়ন করার জন্য শর্তসাপেক্ষ প্রত্যাশা ফাংশনটির মডেল করা এখানে লক্ষ্য here আপনি যদি লিনিয়ার রিগ্রেশন দিয়ে নিজেকে মডেলিংয়ের মধ্যে সীমাবদ্ধ করে থাকেন তবে আপনাকে এই ননলাইনারি পদগুলি ম্যানুয়ালি অন্তর্ভুক্ত করতে হবে। তবে একটি বিকল্প হ'ল উদাহরণস্বরূপ কার্নেল রিজ রিগ্রেশন এর মতো আরও নমনীয় রিগ্রেশন মডেলিং ব্যবহার করা ।


আপনাকে ধন্যবাদ কার্ল্লোসিনেল্লি, উপসংহারে, আপনি কি বলছেন যে আমাদের একই ডিগ্রির শর্তাদি অন্তর্ভুক্ত করা উচিত - কার্যকরী ফর্মের সম্ভাব্য অপব্যবহারের জন্য অ্যাকাউন্টে - এবং প্রতিরোধটি নির্ধারণ করতে দেয় কোন পদগুলি উল্লেখযোগ্য?
বুদ্ধিমান 12

3
@ কেভিনিসি এখানে মূল প্রশ্নটি: আপনি কী ইন্টারঅ্যাকশন শব্দটি ব্যাখ্যা করতে চান? যদি আপনি তা করেন, তবে কার্যকরী ফর্মটির অপব্যবহার একটি আসল সমস্যা। চতুর্ভুজ পদগুলি যুক্ত করা অ-লিনিয়ারিটি ক্যাপচারের একটি সহজ উপায়, তবে সাধারণ সমস্যাটি শর্তাধীন প্রত্যাশা ফাংশনটিকে যথাযথভাবে মডেলিং করে।
কার্লোস সিনেলি 20

1
rm(list=ls())এখানে পোস্ট কোড অন্তর্ভুক্ত করবেন না দয়া করে ! লোকেরা যদি কোডটি কেবল অনুলিপি করে পেস্ট করে এবং চালায় তবে তারা আশ্চর্য হতে পারে ... আমি আপাতত এটি সরিয়ে দিয়েছি।
কেজেটিল বি হালওয়ারসেন

3

আপনার উত্তরে আপনি যে দুটি মডেল তালিকাভুক্ত করেছেন সেগুলির প্রভাব কীভাবে তা স্পষ্ট করতে পুনরায় প্রকাশ করা যেতে পারেX1 নির্ভর করতে পোস্টুলেটেড হয় X2 (বা অন্য উপায় কাছাকাছি) প্রতিটি মডেল।

প্রথম মডেলটি এভাবে প্রকাশ করা যেতে পারে:

Y=β0+(β1+β3X2)X1+β2X2+ϵ,

যা দেখায় যে, এই মডেলটিতে, X1 এর উপর একটি রৈখিক প্রভাব আছে বলে ধরে নেওয়া হয় Y (এর প্রভাবের জন্য নিয়ন্ত্রণ করা হচ্ছে) X2) তবে এই রৈখিক প্রভাবটির প্রস্থতা - এর opeাল সহগ দ্বারা ক্যাপচার X1 - এর ক্রিয়া হিসাবে রৈখিকভাবে পরিবর্তন হয় X2। উদাহরণস্বরূপ, এর প্রভাবX1 চালু Y এর মান হিসাবে আকার বাড়তে পারে X2 বৃদ্ধি.

দ্বিতীয় মডেলটি এভাবে প্রকাশ করা যেতে পারে:

Y=β0+(β1+β3X2)X1+β4X12+β2X2+β5X22+ϵ,

যা দেখায় যে, এই মডেলটিতে, এর প্রভাব X1 চালু Y (এর প্রভাবের জন্য নিয়ন্ত্রণ করা হচ্ছে) X2) লিনিয়ারের চেয়ে চতুর্ভুজ হিসাবে ধরে নেওয়া হয়। এই চতুর্ভুজ প্রভাব উভয়কে অন্তর্ভুক্ত করে ক্যাপচার করা হয়X1 এবং X12মডেল মধ্যে। সহগের যখনX12 থেকে স্বাধীন বলে ধরে নেওয়া হয় X2এর সহগ X1 লিনিয়ার উপর নির্ভর করে বলে ধরে নেওয়া হয় X2

কোনও একটি মডেল ব্যবহার করলে বোঝা যায় যে আপনি এর প্রভাবের প্রকৃতি সম্পর্কে সম্পূর্ণ ভিন্ন ধারণা তৈরি করছেন X1 চালু Y (এর প্রভাবের জন্য নিয়ন্ত্রণ করা হচ্ছে) X2)।

সাধারণত, মানুষ প্রথম মডেল ফিট করে। তারপরে তারা সেই মডেলের থেকে অবশিষ্টগুলি প্লট করতে পারেX1 এবং X2পালাক্রমে. যদি অবশিষ্টাংশগুলি একটি ফাংশন হিসাবে অবশিষ্টাংশগুলিতে একটি চতুর্ভুজ বিন্যাস প্রকাশ করেX1 এবং / অথবা X2, মডেলটি সেই অনুযায়ী বাড়ানো যেতে পারে যাতে এটি অন্তর্ভুক্ত থাকে X12 এবং / অথবা X22 (এবং সম্ভবত তাদের মিথস্ক্রিয়া)।

নোট করুন যে আপনি ধারাবাহিকতার জন্য ব্যবহার করেছেন সেই স্বরলিপিটি আমি সরল করে দিয়েছি এবং ত্রুটির শব্দটি উভয়ই মডেলগুলিতে স্পষ্ট করে দিয়েছি।


2
হাই @ ইসাবেলা গেমেন্ট, আপনার ব্যাখ্যার জন্য ধন্যবাদ সংক্ষেপে, সত্যিকার অর্থে কোনও "বিধি" নেই যে আমাদের ইন্টারঅ্যাকশন শর্তাদি অন্তর্ভুক্ত করা হলে আমাদের চতুর্ভুজ পদ যুক্ত করা উচিত। দিনের শেষে, আমরা আমাদের মডেল সম্পর্কে যা অনুমান করছি তা ফিরে আসে এবং আমাদের বিশ্লেষণের ফলাফলগুলি (যেমন। অবশিষ্ট প্লট)। এটা কি সঠিক? আবার ধন্যবাদ :)!
বুদ্ধিমান 12

2
ঠিক বলেছেন, কেভিন! কোনও "বিধি" নেই, কারণ প্রতিটি ডেটা সেট পৃথক এবং বিভিন্ন প্রশ্নের উত্তর বোঝাতেও বোঝায়। এ কারণেই আমাদের সচেতন হওয়া জরুরী যে আমরা সেই তথ্য সংকলনে যে মডেলটি ফিট করি তা বিভিন্ন অনুমানকে বোঝায় যা মডেল ফলাফলগুলিতে বিশ্বাসের জন্য আমাদের ডেটা দ্বারা সমর্থন করা প্রয়োজন। মডেল ডায়াগনস্টিক প্লটগুলি (যেমন, অবশিষ্টাংশের প্লট বনাম লাগানো মানগুলি) আমাদের কত পরিমাণে তা যাচাই করতে সহায়তা করে - যদি কোনও হয় - তথ্যটি মডেল অনুমানকে সমর্থন করে।
ইসাবেলা ঘেমেন্ট

1
@ কেভিনিসি: দুর্দান্ত! আপনাকেও শুভ ছুটি, কেভিন! ☃🎉🎁🎈
ইসাবেলা ঘেমেন্ট
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.