নামমাত্র (চতুর্থ) এবং একটি অবিচ্ছিন্ন (ডিভি) ভেরিয়েবলের মধ্যে সম্পর্ক


77

আমার কাছে নামমাত্র পরিবর্তনশীল (কথোপকথনের বিভিন্ন বিষয়, টপিক ০ = 0 ইত্যাদি হিসাবে কোডেড) এবং একটি কথোপকথনের দৈর্ঘ্যের মতো অনেকগুলি স্কেল ভেরিয়েবল (ডিভি) রয়েছে।

আমি কীভাবে নামমাত্র এবং স্কেল ভেরিয়েবলের মধ্যে পারস্পরিক সম্পর্ক স্থাপন করতে পারি?


3
নামমাত্র (চতুর্থ হিসাবে গৃহীত) এবং একটি স্কেল (ডিভি হিসাবে নেওয়া) ভেরিয়েবলের মধ্যে অ্যাসোসিয়েশন / পারস্পরিক সম্পর্কের সর্বাধিক প্রাকৃতিক পরিমাপ এবং এটি হয়।
ttnphns

আমি যদি সঠিকভাবে বুঝতে পারি তবে আপনি কথোপকথনের সম্পর্কের বিশদ বিষয় (আইভি?) এবং কথোপকথনের সময়কাল (ডিভি) সম্পর্কে কিছু বলতে চান। '' উদাহরণস্বরূপ হাইপো = টপিক 1 এর অর্থ টপিক 2-এর চেয়ে উল্লেখযোগ্যভাবে সংক্ষিপ্ত কথোপকথন '', যদি এই উদাহরণটি আপনি বোঝাতে চেয়েছিলেন: আপনি এটির জন্য একটি আনোভা ব্যবহার করবেন (যদি আরও ডিভি'র মানোভা বা একাধিক আনোভা থাকে) আপনি কী বোঝাতে চাইছেন এটি কি? আপনার প্রশ্নের সাথে বাক্যটি যথেষ্ট অস্পষ্ট ..
স্টিভেন বি। পিটজ


সম্পর্কিত প্রশ্ন: অ-
দ্বৈতদৈর্ঘ্য

উত্তর:


160

এই প্রশ্নের শিরোনাম একটি মৌলিক ভুল বোঝাবুঝির পরামর্শ দেয়। পারস্পরিক সম্পর্কের সর্বাধিক প্রাথমিক ধারণাটি হ'ল "যেমন একটি পরিবর্তনশীল বৃদ্ধি পায়, তেমনি অন্যান্য পরিবর্তনশীল বৃদ্ধি (ধনাত্মক সম্পর্ক), হ্রাস (নেতিবাচক সম্পর্ক) বা একই থাকবেন (কোনও পারস্পরিক সম্পর্ক নেই)" এমন ধরণের সাথে নিখুঁত ধনাত্মক পারস্পরিক সম্পর্ক +1, কোনও পারস্পরিক সম্পর্ক 0 নয়, এবং নিখুঁত নেতিবাচক সম্পর্ক -1 হয় lation "নিখুঁত" এর অর্থ নির্ভর করে কোন পারস্পরিক সম্পর্কের পরিমাপটি ব্যবহৃত হয় তার উপর: পিয়ারসন পারস্পরিক সম্পর্কের জন্য এর অর্থ স্পিয়ারম্যান প্লট সম্পর্কিত ডানদিকে একটি সরলরেখায় ডান পাশে থাকা (+1 এর জন্য উপরের দিকে opালু এবং -1 এর জন্য নীচে), স্পিয়ারম্যান পারস্পরিক সম্পর্কের জন্য র‌্যাঙ্কগুলি একেবারে সম্মত হয় (বা ঠিক একমত নয়, সুতরাং প্রথমে শেষের সাথে জুড়ে দেওয়া হয়েছে, -১ এর জন্য), এবং কেন্ডালের টাউয়ের জন্যযে সমস্ত জোড় পর্যবেক্ষণের সাথে সম্মতিযুক্ত পদ রয়েছে (বা -1 এর জন্য বিচ্ছিন্ন)। অনুশীলনে এটি কীভাবে কাজ করে তার জন্য অন্তর্নিহিত নীচের স্ক্যাটার প্লটগুলির ( চিত্রের ক্রেডিট ) জন্য পিয়ারসন পারস্পরিক সম্পর্ক থেকে সংগ্রহ করা যেতে পারে :

বিভিন্ন স্ক্রেটার প্লটের জন্য পিয়ারসন পারস্পরিক সম্পর্ক

আরও অন্তর্দৃষ্টি আনসকম্বের চতুর্মুখী বিবেচনা করে আসে যেখানে চারটি ডেটা সেটে পিয়ারসন পারস্পরিক সম্পর্ক রয়েছে +0.816, যদিও তারা এই পদ্ধতিটি " বৃদ্ধি হিসাবে , বৃদ্ধি পেতে থাকে" একেবারে বিভিন্ন উপায়ে ( চিত্রের ক্রেডিট ) অনুসরণ করে:yxy

আনসকম্বের চৌকো জন্য স্কেটার প্লট

যদি আপনার স্বতন্ত্র পরিবর্তনশীল নামমাত্র হয় তবে " বাড়ার সাথে সাথে" কী হয় তা নিয়ে কথা বলার অর্থ নেই । আপনার ক্ষেত্রে, "কথোপকথনের টপিক" এর এমন একটি সংখ্যাসূচক মান নেই যা উপরে ও নীচে যেতে পারে। সুতরাং আপনি "কথোপকথনের বিষয়" "কথোপকথনের সময়কাল" এর সাথে সম্পর্কিত করতে পারবেন না। তবে @ এনটিএনফেন্স মন্তব্যগুলিতে যেমন লিখেছেন, এমন কিছু সংস্থার শক্তির ব্যবস্থা রয়েছে যা আপনি ব্যবহার করতে পারেন যা কিছুটা অভিন্ন। এখানে কিছু জাল তথ্য এবং তার সাথে আসা আর কোডটি রয়েছে:x

data.df <- data.frame(
    topic = c(rep(c("Gossip", "Sports", "Weather"), each = 4)),
    duration  = c(6:9, 2:5, 4:7)
)
print(data.df)
boxplot(duration ~ topic, data = data.df, ylab = "Duration of conversation")

যা দেয়:

> print(data.df)
     topic duration
1   Gossip        6
2   Gossip        7
3   Gossip        8
4   Gossip        9
5   Sports        2
6   Sports        3
7   Sports        4
8   Sports        5
9  Weather        4
10 Weather        5
11 Weather        6
12 Weather        7

জাল তথ্য জন্য বক্স প্লট

"টপিক" এর রেফারেন্স স্তর হিসাবে "গসিপ" ব্যবহার করে এবং "ক্রীড়া" এবং "আবহাওয়া" এর জন্য বাইনারি ডামি ভেরিয়েবলগুলি সংজ্ঞায়িত করে আমরা একাধিক রিগ্রেশন করতে পারি।

> model.lm <- lm(duration ~ topic, data = data.df)
> summary(model.lm)

Call:
lm(formula = duration ~ topic, data = data.df)

Residuals:
   Min     1Q Median     3Q    Max 
 -1.50  -0.75   0.00   0.75   1.50 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)    7.5000     0.6455  11.619 1.01e-06 ***
topicSports   -4.0000     0.9129  -4.382  0.00177 ** 
topicWeather  -2.0000     0.9129  -2.191  0.05617 .  
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 1.291 on 9 degrees of freedom
Multiple R-squared: 0.6809,     Adjusted R-squared: 0.6099 
F-statistic:   9.6 on 2 and 9 DF,  p-value: 0.005861 

গসিপ কথোপকথনের গড় সময়কাল 7.৫ মিনিট হিসাবে দেওয়া হিসাবে আমরা আনুমানিক ইন্টারসেপ্টকে ব্যাখ্যা করতে পারি, এবং স্পোর্টস কথোপকথনগুলি দেখানোর ক্ষেত্রে ডামি ভেরিয়েবলগুলির জন্য অনুমান সহগগুলি গসিপগুলির চেয়ে গড়ে ৪ মিনিট কম ছিল, যখন আবহাওয়ার কথোপকথনগুলি গসিপের চেয়ে 2 মিনিট কম ছিল। আউটপুট অংশ হ'ল সংকল্প । এর একটি ব্যাখ্যা হ'ল আমাদের মডেল কথোপকথনের সময়কালের মধ্যে iance%% বৈকল্পিকতা ব্যাখ্যা করে। আরেকটি ব্যাখ্যা যে বর্গক্ষেত্র-Rooting দ্বারা, আমরা একাধিক পারস্পরিক সম্পর্ক coefficent জানতে পারেন হয় ।আর 2 আরR2=0.6809R2R

> rsq <- summary(model.lm)$r.squared
> rsq
[1] 0.6808511
> sqrt(rsq)
[1] 0.825137

নোট করুন যে 0.825 সময়কাল এবং টপিকের মধ্যে পারস্পরিক সম্পর্ক নয় - টপিক নামমাত্র হওয়ায় আমরা এই দুটি ভেরিয়েবলের সম্পর্ক তুলতে পারি না। এটি আসলে যা প্রতিনিধিত্ব করে তা হ'ল পর্যবেক্ষণের সময়কালের মধ্যে পারস্পরিক সম্পর্ক এবং আমাদের মডেলের দ্বারা পূর্বাভাস দেওয়া (লাগানো)। এই উভয় ভেরিয়েবল সংখ্যাসূচক তাই আমরা সেগুলি সংযুক্ত করতে সক্ষম হয়েছি। বাস্তবে লাগানো মানগুলি প্রতিটি গ্রুপের জন্য কেবল গড় সময়সীমা:

> print(model.lm$fitted)
  1   2   3   4   5   6   7   8   9  10  11  12 
7.5 7.5 7.5 7.5 3.5 3.5 3.5 3.5 5.5 5.5 5.5 5.5 

কেবল পরীক্ষা করতে, পর্যবেক্ষণ করা এবং লাগানো মানগুলির মধ্যে পিয়ারসন পারস্পরিক সম্পর্ক:

> cor(data.df$duration, model.lm$fitted)
[1] 0.825137

আমরা এটিকে একটি বিচ্ছুরিত প্লটে কল্পনা করতে পারি:

plot(x = model.lm$fitted, y = data.df$duration,
     xlab = "Fitted duration", ylab = "Observed duration")
abline(lm(data.df$duration ~ model.lm$fitted), col="red")

পর্যবেক্ষিত এবং লাগানো মানগুলির মধ্যে একাধিক পারস্পরিক সম্পর্ক সহগ ভিজ্যুয়ালাইজ করুন

এই সম্পর্কের শক্তি আনসকম্বের চৌকো প্লটগুলির সাথে দৃষ্টিভঙ্গির সাথে খুব মিল রয়েছে, যা আশ্চর্যজনক নয় যেহেতু তাদের সকলেরই পিয়ারসনের প্রায় 0.82 সম্পর্কিত সম্পর্ক ছিল।

আপনি অবাক হতে পারেন যে একটি স্বতন্ত্র স্বতন্ত্র ভেরিয়েবলের সাহায্যে আমি একমুখী আনোভা না হয়ে একটি (বহু) রিগ্রেশন করতে বেছে নিয়েছি । কিন্তু বাস্তবে এটি একটি সমতুল্য পদ্ধতির হতে পারে।

library(heplots) # for eta
model.aov <- aov(duration ~ topic, data = data.df)
summary(model.aov)

এটি অভিন্ন F পরিসংখ্যান এবং পি- ভ্যালু সহ একটি সংক্ষিপ্তসার দেয় :

            Df Sum Sq Mean Sq F value  Pr(>F)   
topic        2     32  16.000     9.6 0.00586 **
Residuals    9     15   1.667                   
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

আবার, আনোভা মডেলটি গ্রুপটির অর্থ খায়, ঠিক যেমনটি রিগ্রেশন হয়েছিল:

> print(model.aov$fitted)
  1   2   3   4   5   6   7   8   9  10  11  12 
7.5 7.5 7.5 7.5 3.5 3.5 3.5 3.5 5.5 5.5 5.5 5.5 

এর অর্থ হ'ল নির্ভরশীল ভেরিয়েবলের লাগানো এবং পর্যবেক্ষণ করা মানগুলির মধ্যে পারস্পরিক সম্পর্ক একই রকম হয় যেটি একাধিক রিগ্রেশন মডেলের জন্য ছিল। "বৈকল্পিকের অনুপাতটি ব্যাখ্যা করা হয়েছে" একাধিক রিগ্রেশনের জন্য পরিমাপ এর একটি আনোভা সমতুল্য, ta (এটা স্কোয়ার্ড) রয়েছে। আমরা দেখতে পাচ্ছি তারা মিলছে।η 2R2η2

> etasq(model.aov, partial = FALSE)
              eta^2
topic     0.6808511
Residuals        NA

এই অর্থে, একটি নামমাত্র ব্যাখ্যামূলক পরিবর্তনশীল এবং ক্রমাগত প্রতিক্রিয়া মধ্যে একটি "পারস্পরিক সম্পর্ক" নিকটস্থ অ্যানালগ হবে , বর্গ-মূল , যা একাধিক পারস্পরিক সম্পর্কের সহগের সমতূল্য রিগ্রেশন জন্য। এটি এই মন্তব্যটির ব্যাখ্যা দেয় যে "নামমাত্র (চতুর্থ হিসাবে গৃহীত) এবং স্কেল (ডিভি হিসাবে নেওয়া) ভেরিয়েবলের মধ্যে অ্যাসোসিয়েশন / পারস্পরিক সম্পর্কের সর্বাধিক প্রাকৃতিক পরিমাপ এটি"। যদি আপনি ব্যাখ্যা করা বৈকল্পিক অনুপাতে আরও আগ্রহী হন তবে আপনি এটা স্কোয়ার্ড (বা এর রিগ্রেশন সমতুল্য ) দিয়ে আটকে থাকতে পারেন । আনোভা জন্য, একটি প্রায়শই আংশিক জুড়ে আসেη 2 আর আর 2ηη2RR2এটা স্কোয়ার যেহেতু এই আনোভা একমুখী ছিল (কেবলমাত্র একটি স্পষ্টিকর ভবিষ্যদ্বাণী ছিল), আংশিক এটা স্কোয়ারটি এটা স্কোয়ারের সমান, তবে জিনিসগুলি আরও ভবিষ্যদ্বাণীকারীদের সাথে মডেলগুলিতে পরিবর্তিত হয়।

> etasq(model.aov, partial = TRUE)
          Partial eta^2
topic         0.6808511
Residuals            NA

তবে এটি বেশ সম্ভব যে "পারস্পরিক সম্পর্ক" বা "বৈকল্পিক অনুপাতের ব্যাখ্যা দেওয়া" কোনওটিই আপনি ব্যবহার করতে চান এমন প্রভাবের আকার নয় the উদাহরণস্বরূপ, আপনার ফোকাসটি কীভাবে গোষ্ঠীগুলির মধ্যে পার্থক্য বোঝায় সে সম্পর্কে আরও বেশি লক্ষ রাখতে পারে। এই প্রশ্নোত্তর এটা স্কোয়ারড, আংশিক এটা স্কোয়ারড এবং বিভিন্ন বিকল্পের আরও তথ্য ধারণ করে।


4
@ ঝুবার্ব এই হার্ড অংশটি বোগাস ডেটার জন্য পেয়েছিল ...R0.82
সিলভারফিশ

খুব সুন্দরভাবে বর্ণিত উত্তরের জন্য +1! এখানে আপনি যুক্তি দিয়েছিলেন যে বা এর সাইনটি সর্বদা ইতিবাচক, কারণ অবশ্যই কোনও শালীন ফিট মডেলটি উপযুক্ত মানের সাথে ধনাত্মক (নেতিবাচক পরিবর্তে) ডিভির সাথে সম্পর্কিত হবে। হতে পারে আমি যুক্ত করতে পারি যে কোনও কোনও ক্ষেত্রে সাইনটি এটাকে অর্পণ করা যেতে পারে , উদাহরণস্বরূপ যদি IV অর্ডার করা হয় (আমি বিশ্বাস করি এটি তখন "নামমাত্র" এর পরিবর্তে "অর্ডিনাল" বলা হয়), বা কমপক্ষে আংশিকভাবে অর্ডার করা হয়েছে। কল্পনা করুন যে ওপিতে বিষয়গুলি চারুকলা থেকে গণিত পর্যন্ত রয়েছে; তারপর আমরা nerdiness এবং ডিভি মধ্যে পারস্পরিক চিহ্ন ব্যবহার এবং তা নির্ধারিত পারে । আর η ηηRηη
অ্যামিবা

r=0.9R=0.9ηRr

ηrR

eta21
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.