এলএম এ মিথস্ক্রিয়া শর্তাবলী লিখতে বিভিন্ন উপায়?


42

আমার কাছে একটি প্রশ্ন রয়েছে যা কোনও রিগ্রেশন মডেলটিতে কোনও ইন্টারঅ্যাকশন নির্দিষ্ট করার সেরা উপায়। নিম্নলিখিত তথ্য বিবেচনা করুন:

d <- structure(list(r = structure(c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L,
     1L, 1L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L), .Label = c("r1","r2"),
     class = "factor"), s = structure(c(1L, 1L, 1L, 1L, 1L, 
     2L, 2L, 2L, 2L, 2L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L), 
    .Label = c("s1","s2"), class = "factor"), rs = structure(c(1L, 1L,
     1L,1L, 1L,2L, 2L, 2L, 2L, 2L, 3L, 3L, 3L, 3L, 3L, 4L, 4L, 4L, 4L, 4L),
    .Label = c("r1s1","r1s2", "r2s1", "r2s2"), class = "factor"), 
     y = c(19.3788027518437, 23.832287726332, 26.2533235300492,
     15.962906892112, 24.2873740664331, 28.5181676764727, 25.2757801195961,
     25.3601044326474, 25.3066440027202, 24.3298865128677, 32.5684219007394,
     31.0048406654209, 31.671238316086, 34.1933764518288, 36.8784821769123,
     41.6691435168277, 40.4669714825801, 39.2664137501106, 39.4884849591932,
     49.247505535468)), .Names = c("r","s", "rs", "y"), 
     row.names = c(NA, -20L), class = "data.frame")

মিথস্ক্রিয়াগুলির সাথে মডেলটি নির্দিষ্ট করার দুটি সমতুল উপায়:

lm0 <- lm(y ~ r*s, data=d)
lm1 <- lm(y ~ r + s + r:s, data=d)

আমার প্রশ্নটি হ'ল যদি আমি একই স্তরের মিথষ্ক্রিয়াটির সাথে একটি নতুন ভেরিয়েবল (আরএস) বিবেচনা করে ইন্টারঅ্যাকশনটি নির্দিষ্ট করতে পারি:

lm2 <- lm(y ~ r + s + rs, data=d)

এই পদ্ধতির কী কী সুবিধা / অসুবিধাগুলি রয়েছে? এবং এই দুটি পদ্ধতির ফলাফল আলাদা কেন?

summary(lm1)

lm(formula = y ~ r + s + r:s, data = d, x = TRUE)
            coef.est coef.se
(Intercept) 21.94     1.46  
rr2         11.32     2.07  
ss2          3.82     2.07  
rr2:ss2      4.95     2.92  
---
n = 20, k = 4
residual sd = 3.27, R-Squared = 0.87


summary(lm2)

lm(formula = y ~ r + s + rs, data = d, x = TRUE)
            coef.est coef.se
(Intercept) 21.94     1.46  
rr2         11.32     2.07  
ss2          8.76     2.07   # ss2 coef is different from lm1
rsr1s2      -4.95     2.92  
---
n = 20, k = 4
residual sd = 3.27, R-Squared = 0.87

আপনি বলতে চাচ্ছেন যে rsহিসাবে সংজ্ঞায়িত করা হয় interaction(r, s)?
chl

সম্ভবত আপনি যে কোডটি আরএসআর 1 এস 2 তৈরি করেছিলেন তা আমাদের দেখাতে পারেন?
জোবোম্যান 21

আরএস ফ্যাক্টরটি ম্যানুয়ালি সংজ্ঞায়িত করা হয়েছিল (কেবলমাত্র উপাদানগুলি আর এবং পেস্ট করুন)। ডেটা সেট দেখুন।
ম্যানুয়েল রামন

1
আমার ধারণা ভেরিয়েবলগুলির মধ্যে যেভাবে সম্পর্কিত হয় সেভাবে দেখুন attr(terms(lm1),"factors")এবং দেখুনattr(terms(lm2),"factors")
গ্যালেড

উত্তর:


8

ফলাফলগুলি পৃথক, কারণ এলএম মিথস্ক্রিয়াটির সাথে মডেলটিকে যেভাবে সেট আপ করে তা আপনার নিজের সেট আপ করার সময় এটি কীভাবে সেট আপ হয় তার থেকে আলাদা। যদি আপনি অবশেষে এসডি দেখুন, এটি একই, যা নির্দেশ করে (নিশ্চিতভাবে নয়) যে অন্তর্নিহিত মডেলগুলি একই, কেবল প্রকাশিত (এলএম ইন্টার্নালগুলিতে) আলাদাভাবে।

আপনি যদি আপনার ইন্টারঅ্যাকশনটিকে আপনার পরামিতি অনুমানের paste(d$s, d$r)পরিবর্তে ব্যাখ্যা paste(d$r, d$s)করেন তবে আকর্ষণীয় উপায়ে আবার পরিবর্তন হবে।

নোট করুন কীভাবে lm1 এর জন্য আপনার মডেল সংক্ষিপ্তসারে ss2 এর সহগের প্রাক্কলনটি lm2 এর সংক্ষিপ্তসার তুলনায় 4.94 কম, rr2 এর জন্য সহগ রয়েছে: এসএস 2 হচ্ছে 4.95 (আপনি যদি 3 দশমিক স্থানে মুদ্রণ করেন তবে পার্থক্যটি চলে যাবে)। এটি শর্তাদির অভ্যন্তরীণ পুনঃব্যবস্থাপনাটি ঘটেছে এমন আরও একটি ইঙ্গিত।

আমি নিজে এটি করার কোনও সুবিধা ভাবতে পারি না, তবে আরও জটিল মডেলগুলির সাথে এমন একটি হতে পারে যেখানে আপনি একটি সম্পূর্ণ ইন্টারঅ্যাকশন শব্দটি চান না তবে পরিবর্তে কেবল দুটি বা আরও বেশি কারণের মধ্যে "ক্রস" এর কিছু শর্ত রয়েছে।


আমি lm2 হিসাবে ইন্টারঅ্যাকশনগুলি সংজ্ঞায়িত করার একমাত্র সুবিধাটি হ'ল ইন্টারঅ্যাকশন টার্মের জন্য একাধিক তুলনা করা সহজ। আমি যা পুরোপুরি বুঝতে পারি না তা হ'ল নীতিগতভাবে যদি মনে হয় যে 2 টি পন্থা একই রকম হয়।
ম্যানুয়েল রামন

5
পদ্ধতিগুলি একই, তবে অনুমান করা মডেলটির সঠিক প্যারামিটারাইজেশনগুলি পৃথক, তাই ফলাফলগুলি ভিন্ন প্রদর্শিত হয় appear দুটি বাইনারি রেজিস্ট্রার এবং একটি ইন্টারঅ্যাকশন সহ একটি মডেল বিবেচনা করুন । আপনার চারটি বিভাগ রয়েছে তবে আপনি মডেলটি বিভিন্নভাবে বিভিন্নভাবে লিখতে পারেন, উদাহরণস্বরূপ, ভেরিয়েবল বা ।, অথবা অন্যদের ভেরিয়েবল একে অপরের শুধু রৈখিক সমন্বয় সহগ অনুমান আলাদা হতে হবে, কিন্তু মডেল সত্যিই x1,x2(1,x1,x2,x1x2)(x1,x2,x1x2,(1x1)(1x2)
jbowman

সুতরাং, যদিও পৃথক, উভয় পদ্ধতিরই সঠিক, তাই না?
ম্যানুয়েল রামন

ঠিক। গাণিতিকভাবে বিভিন্ন ফর্মুলেশনে স্বতন্ত্র ভেরিয়েবলের ম্যাট্রিকগুলি একে অপরের কেবল লিনিয়ার ট্রান্সফর্ম হয়, সুতরাং একটি মডেলের প্যারামিটার অনুমানগুলি অপরটির পরামিতি অনুমান থেকে গণনা করা যেতে পারে যদি কেউ জানে যে দুটি মডেল আসলে কীভাবে সেট আপ হয়েছিল।
jboman

9

আপনি যদি মডেল ম্যাট্রিক্সের দিকে তাকান তবে আপনি এই আচরণটি আরও ভালভাবে বুঝতে পারবেন।

 model.matrix(lm1 <- lm(y ~ r*s, data=d))
 model.matrix(lm2 <- lm(y ~ r + s + rs, data=d))

আপনি যখন এই ম্যাট্রিকগুলি দেখেন, আপনি s2=1অন্যান্য ভেরিয়েবলের সাথে নক্ষত্রের তুলনা করতে পারেন (যেমন কখন s2=1, অন্যান্য ভেরিয়েবলগুলি কোন মান গ্রহণ করে?)। আপনি দেখতে পাবেন যে এই নক্ষত্রগুলি কিছুটা পৃথক হয়েছে, যার অর্থ কেবলমাত্র বেস বিভাগটি আলাদা। অন্য সব কিছু প্রাবন্ধিকভাবে একই রকম। বিশেষ করে, মনে রাখবেন যে আপনার মধ্যে lm1, উপর সহগ ss2কোফিসিয়েন্টস সমান ss2+rsr1s2এর lm2, 3.82 = 8.76-4.95 অর্থাৎ, ত্রুটি rounding সংক্ষিপ্ত।

উদাহরণস্বরূপ, নিম্নলিখিত কোডটি কার্যকর করা আপনাকে আর এর স্বয়ংক্রিয় সেটিংস ব্যবহার করার মতো একই আউটপুট দেয়:

  d$rs <- relevel(d$rs, "r1s1")
  summary(lm1 <- lm(y~ factor(r) + factor(s) + factor(rs), data=d))

এটি আপনার প্রশ্নের তাত্ক্ষণিক জবাবও দেয়: কারণগুলি সেট আপ করার পরিবর্তনের একমাত্র কারণ হ'ল স্পষ্টতামূলক স্পষ্টতা সরবরাহ করা। নিম্নলিখিত উদাহরণটি বিবেচনা করুন: ধরুন আপনি হাই স্কুল সমাপ্তির জন্য ডামির উপর মজুরি ফিরিয়ে দেন এমন একটি ফ্যাক্টরের সাথে ইন্টারঅ্যাক্ট করেছেন যা আপনি সংখ্যালঘু সম্পর্কিত কিনা তা নির্দেশ করে।

এটি হল:wage=α+β edu+γ eduminority+ϵ

যদি আপনি যদি সংখ্যালঘুতে অন্তর্ভুক্ত থাকেন তবে সংখ্যালঘু ফ্যাক্টরটির মান 1 নেওয়া হয়, তবে উচ্চ-বিদ্যালয় সম্পন্ন অ-সংখ্যালঘু ব্যক্তিদের জন্য বুনিয়াদি বোঝানো যেতে পারে। এটি যদি আপনার আগ্রহের গুণাগুণ হয় তবে আপনার এটির মতো কোড করা উচিত। অন্যথায়, ধরুন আপনি সংখ্যালঘু না হলে সংখ্যালঘু ফ্যাক্টর 1 এর মান নেয় 1 তারপরে, উচ্চ-সংখ্যালঘু ব্যক্তিরা উচ্চ বিদ্যালয়টি শেষ করার পরে আরও কত উপার্জন করবে তা দেখার জন্য আপনাকে "ম্যানুয়ালি" গণনা । যদিও সমস্ত তথ্য অনুমানের মধ্যে রয়েছে তবে নোট করুন এবং কারণগুলি আলাদাভাবে স্থাপন করে যথেষ্ট ফলাফল পরিবর্তন হয় না!β + γββ+γ

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.