আমার কাছে নামমাত্র পরিবর্তনশীল (কথোপকথনের বিভিন্ন বিষয়, টপিক ০ = 0 ইত্যাদি হিসাবে কোডেড) এবং একটি কথোপকথনের দৈর্ঘ্যের মতো অনেকগুলি স্কেল ভেরিয়েবল (ডিভি) রয়েছে।
আমি কীভাবে নামমাত্র এবং স্কেল ভেরিয়েবলের মধ্যে পারস্পরিক সম্পর্ক স্থাপন করতে পারি?
আমার কাছে নামমাত্র পরিবর্তনশীল (কথোপকথনের বিভিন্ন বিষয়, টপিক ০ = 0 ইত্যাদি হিসাবে কোডেড) এবং একটি কথোপকথনের দৈর্ঘ্যের মতো অনেকগুলি স্কেল ভেরিয়েবল (ডিভি) রয়েছে।
আমি কীভাবে নামমাত্র এবং স্কেল ভেরিয়েবলের মধ্যে পারস্পরিক সম্পর্ক স্থাপন করতে পারি?
উত্তর:
এই প্রশ্নের শিরোনাম একটি মৌলিক ভুল বোঝাবুঝির পরামর্শ দেয়। পারস্পরিক সম্পর্কের সর্বাধিক প্রাথমিক ধারণাটি হ'ল "যেমন একটি পরিবর্তনশীল বৃদ্ধি পায়, তেমনি অন্যান্য পরিবর্তনশীল বৃদ্ধি (ধনাত্মক সম্পর্ক), হ্রাস (নেতিবাচক সম্পর্ক) বা একই থাকবেন (কোনও পারস্পরিক সম্পর্ক নেই)" এমন ধরণের সাথে নিখুঁত ধনাত্মক পারস্পরিক সম্পর্ক +1, কোনও পারস্পরিক সম্পর্ক 0 নয়, এবং নিখুঁত নেতিবাচক সম্পর্ক -1 হয় lation "নিখুঁত" এর অর্থ নির্ভর করে কোন পারস্পরিক সম্পর্কের পরিমাপটি ব্যবহৃত হয় তার উপর: পিয়ারসন পারস্পরিক সম্পর্কের জন্য এর অর্থ স্পিয়ারম্যান প্লট সম্পর্কিত ডানদিকে একটি সরলরেখায় ডান পাশে থাকা (+1 এর জন্য উপরের দিকে opালু এবং -1 এর জন্য নীচে), স্পিয়ারম্যান পারস্পরিক সম্পর্কের জন্য র্যাঙ্কগুলি একেবারে সম্মত হয় (বা ঠিক একমত নয়, সুতরাং প্রথমে শেষের সাথে জুড়ে দেওয়া হয়েছে, -১ এর জন্য), এবং কেন্ডালের টাউয়ের জন্যযে সমস্ত জোড় পর্যবেক্ষণের সাথে সম্মতিযুক্ত পদ রয়েছে (বা -1 এর জন্য বিচ্ছিন্ন)। অনুশীলনে এটি কীভাবে কাজ করে তার জন্য অন্তর্নিহিত নীচের স্ক্যাটার প্লটগুলির ( চিত্রের ক্রেডিট ) জন্য পিয়ারসন পারস্পরিক সম্পর্ক থেকে সংগ্রহ করা যেতে পারে :
আরও অন্তর্দৃষ্টি আনসকম্বের চতুর্মুখী বিবেচনা করে আসে যেখানে চারটি ডেটা সেটে পিয়ারসন পারস্পরিক সম্পর্ক রয়েছে +0.816, যদিও তারা এই পদ্ধতিটি " বৃদ্ধি হিসাবে , বৃদ্ধি পেতে থাকে" একেবারে বিভিন্ন উপায়ে ( চিত্রের ক্রেডিট ) অনুসরণ করে:y
যদি আপনার স্বতন্ত্র পরিবর্তনশীল নামমাত্র হয় তবে " বাড়ার সাথে সাথে" কী হয় তা নিয়ে কথা বলার অর্থ নেই । আপনার ক্ষেত্রে, "কথোপকথনের টপিক" এর এমন একটি সংখ্যাসূচক মান নেই যা উপরে ও নীচে যেতে পারে। সুতরাং আপনি "কথোপকথনের বিষয়" "কথোপকথনের সময়কাল" এর সাথে সম্পর্কিত করতে পারবেন না। তবে @ এনটিএনফেন্স মন্তব্যগুলিতে যেমন লিখেছেন, এমন কিছু সংস্থার শক্তির ব্যবস্থা রয়েছে যা আপনি ব্যবহার করতে পারেন যা কিছুটা অভিন্ন। এখানে কিছু জাল তথ্য এবং তার সাথে আসা আর কোডটি রয়েছে:
data.df <- data.frame(
topic = c(rep(c("Gossip", "Sports", "Weather"), each = 4)),
duration = c(6:9, 2:5, 4:7)
)
print(data.df)
boxplot(duration ~ topic, data = data.df, ylab = "Duration of conversation")
যা দেয়:
> print(data.df)
topic duration
1 Gossip 6
2 Gossip 7
3 Gossip 8
4 Gossip 9
5 Sports 2
6 Sports 3
7 Sports 4
8 Sports 5
9 Weather 4
10 Weather 5
11 Weather 6
12 Weather 7
"টপিক" এর রেফারেন্স স্তর হিসাবে "গসিপ" ব্যবহার করে এবং "ক্রীড়া" এবং "আবহাওয়া" এর জন্য বাইনারি ডামি ভেরিয়েবলগুলি সংজ্ঞায়িত করে আমরা একাধিক রিগ্রেশন করতে পারি।
> model.lm <- lm(duration ~ topic, data = data.df)
> summary(model.lm)
Call:
lm(formula = duration ~ topic, data = data.df)
Residuals:
Min 1Q Median 3Q Max
-1.50 -0.75 0.00 0.75 1.50
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 7.5000 0.6455 11.619 1.01e-06 ***
topicSports -4.0000 0.9129 -4.382 0.00177 **
topicWeather -2.0000 0.9129 -2.191 0.05617 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.291 on 9 degrees of freedom
Multiple R-squared: 0.6809, Adjusted R-squared: 0.6099
F-statistic: 9.6 on 2 and 9 DF, p-value: 0.005861
গসিপ কথোপকথনের গড় সময়কাল 7.৫ মিনিট হিসাবে দেওয়া হিসাবে আমরা আনুমানিক ইন্টারসেপ্টকে ব্যাখ্যা করতে পারি, এবং স্পোর্টস কথোপকথনগুলি দেখানোর ক্ষেত্রে ডামি ভেরিয়েবলগুলির জন্য অনুমান সহগগুলি গসিপগুলির চেয়ে গড়ে ৪ মিনিট কম ছিল, যখন আবহাওয়ার কথোপকথনগুলি গসিপের চেয়ে 2 মিনিট কম ছিল। আউটপুট অংশ হ'ল সংকল্প । এর একটি ব্যাখ্যা হ'ল আমাদের মডেল কথোপকথনের সময়কালের মধ্যে iance%% বৈকল্পিকতা ব্যাখ্যা করে। আরেকটি ব্যাখ্যা যে বর্গক্ষেত্র-Rooting দ্বারা, আমরা একাধিক পারস্পরিক সম্পর্ক coefficent জানতে পারেন হয় ।আর 2 আর
> rsq <- summary(model.lm)$r.squared
> rsq
[1] 0.6808511
> sqrt(rsq)
[1] 0.825137
নোট করুন যে 0.825 সময়কাল এবং টপিকের মধ্যে পারস্পরিক সম্পর্ক নয় - টপিক নামমাত্র হওয়ায় আমরা এই দুটি ভেরিয়েবলের সম্পর্ক তুলতে পারি না। এটি আসলে যা প্রতিনিধিত্ব করে তা হ'ল পর্যবেক্ষণের সময়কালের মধ্যে পারস্পরিক সম্পর্ক এবং আমাদের মডেলের দ্বারা পূর্বাভাস দেওয়া (লাগানো)। এই উভয় ভেরিয়েবল সংখ্যাসূচক তাই আমরা সেগুলি সংযুক্ত করতে সক্ষম হয়েছি। বাস্তবে লাগানো মানগুলি প্রতিটি গ্রুপের জন্য কেবল গড় সময়সীমা:
> print(model.lm$fitted)
1 2 3 4 5 6 7 8 9 10 11 12
7.5 7.5 7.5 7.5 3.5 3.5 3.5 3.5 5.5 5.5 5.5 5.5
কেবল পরীক্ষা করতে, পর্যবেক্ষণ করা এবং লাগানো মানগুলির মধ্যে পিয়ারসন পারস্পরিক সম্পর্ক:
> cor(data.df$duration, model.lm$fitted)
[1] 0.825137
আমরা এটিকে একটি বিচ্ছুরিত প্লটে কল্পনা করতে পারি:
plot(x = model.lm$fitted, y = data.df$duration,
xlab = "Fitted duration", ylab = "Observed duration")
abline(lm(data.df$duration ~ model.lm$fitted), col="red")
এই সম্পর্কের শক্তি আনসকম্বের চৌকো প্লটগুলির সাথে দৃষ্টিভঙ্গির সাথে খুব মিল রয়েছে, যা আশ্চর্যজনক নয় যেহেতু তাদের সকলেরই পিয়ারসনের প্রায় 0.82 সম্পর্কিত সম্পর্ক ছিল।
আপনি অবাক হতে পারেন যে একটি স্বতন্ত্র স্বতন্ত্র ভেরিয়েবলের সাহায্যে আমি একমুখী আনোভা না হয়ে একটি (বহু) রিগ্রেশন করতে বেছে নিয়েছি । কিন্তু বাস্তবে এটি একটি সমতুল্য পদ্ধতির হতে পারে।
library(heplots) # for eta
model.aov <- aov(duration ~ topic, data = data.df)
summary(model.aov)
এটি অভিন্ন F পরিসংখ্যান এবং পি- ভ্যালু সহ একটি সংক্ষিপ্তসার দেয় :
Df Sum Sq Mean Sq F value Pr(>F)
topic 2 32 16.000 9.6 0.00586 **
Residuals 9 15 1.667
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
আবার, আনোভা মডেলটি গ্রুপটির অর্থ খায়, ঠিক যেমনটি রিগ্রেশন হয়েছিল:
> print(model.aov$fitted)
1 2 3 4 5 6 7 8 9 10 11 12
7.5 7.5 7.5 7.5 3.5 3.5 3.5 3.5 5.5 5.5 5.5 5.5
এর অর্থ হ'ল নির্ভরশীল ভেরিয়েবলের লাগানো এবং পর্যবেক্ষণ করা মানগুলির মধ্যে পারস্পরিক সম্পর্ক একই রকম হয় যেটি একাধিক রিগ্রেশন মডেলের জন্য ছিল। "বৈকল্পিকের অনুপাতটি ব্যাখ্যা করা হয়েছে" একাধিক রিগ্রেশনের জন্য পরিমাপ এর একটি আনোভা সমতুল্য, ta (এটা স্কোয়ার্ড) রয়েছে। আমরা দেখতে পাচ্ছি তারা মিলছে।η 2
> etasq(model.aov, partial = FALSE)
eta^2
topic 0.6808511
Residuals NA
এই অর্থে, একটি নামমাত্র ব্যাখ্যামূলক পরিবর্তনশীল এবং ক্রমাগত প্রতিক্রিয়া মধ্যে একটি "পারস্পরিক সম্পর্ক" নিকটস্থ অ্যানালগ হবে , বর্গ-মূল , যা একাধিক পারস্পরিক সম্পর্কের সহগের সমতূল্য রিগ্রেশন জন্য। এটি এই মন্তব্যটির ব্যাখ্যা দেয় যে "নামমাত্র (চতুর্থ হিসাবে গৃহীত) এবং স্কেল (ডিভি হিসাবে নেওয়া) ভেরিয়েবলের মধ্যে অ্যাসোসিয়েশন / পারস্পরিক সম্পর্কের সর্বাধিক প্রাকৃতিক পরিমাপ এটি"। যদি আপনি ব্যাখ্যা করা বৈকল্পিক অনুপাতে আরও আগ্রহী হন তবে আপনি এটা স্কোয়ার্ড (বা এর রিগ্রেশন সমতুল্য ) দিয়ে আটকে থাকতে পারেন । আনোভা জন্য, একটি প্রায়শই আংশিক জুড়ে আসেη 2 আর আর 2এটা স্কোয়ার যেহেতু এই আনোভা একমুখী ছিল (কেবলমাত্র একটি স্পষ্টিকর ভবিষ্যদ্বাণী ছিল), আংশিক এটা স্কোয়ারটি এটা স্কোয়ারের সমান, তবে জিনিসগুলি আরও ভবিষ্যদ্বাণীকারীদের সাথে মডেলগুলিতে পরিবর্তিত হয়।
> etasq(model.aov, partial = TRUE)
Partial eta^2
topic 0.6808511
Residuals NA
তবে এটি বেশ সম্ভব যে "পারস্পরিক সম্পর্ক" বা "বৈকল্পিক অনুপাতের ব্যাখ্যা দেওয়া" কোনওটিই আপনি ব্যবহার করতে চান এমন প্রভাবের আকার নয় the উদাহরণস্বরূপ, আপনার ফোকাসটি কীভাবে গোষ্ঠীগুলির মধ্যে পার্থক্য বোঝায় সে সম্পর্কে আরও বেশি লক্ষ রাখতে পারে। এই প্রশ্নোত্তর এটা স্কোয়ারড, আংশিক এটা স্কোয়ারড এবং বিভিন্ন বিকল্পের আরও তথ্য ধারণ করে।