দুটি পারস্পরিক সম্পর্ক উল্লেখযোগ্যভাবে পৃথক কিনা তা আমি কীভাবে নির্ধারণ করব?


9

আমি নির্ধারণ করতে চাই যে কোন দুটি সেট ডেটার (বি 1, বি 2) আরও ভাল সংযোগ (পেয়ারসন আর) অন্য সেট (এ) এর সাথে। সমস্ত সেট ডেটাতে ডেটা নেই। ফলাফলের পারস্পরিক সম্পর্ক উল্লেখযোগ্যভাবে আলাদা কিনা তা আমি কীভাবে নির্ধারণ করতে পারি?

উদাহরণস্বরূপ 8426 মানগুলি A এবং B1, r = 0.74 উভয়তেই উপস্থিত রয়েছে। এ এবং বি 2, r = 0.72 এ 8798 উপস্থিত রয়েছে।

আমি ভেবেছিলাম এই প্রশ্নটি সাহায্য করতে পারে তবে এটি উত্তরহীন: একটি সিস্টেমকে কীভাবে জানবেন যে অন্য সিস্টেমের চেয়ে উল্লেখযোগ্যভাবে ভাল?


আমরা বড় ধরে নিতে পারি ? এন
ফায়ারব্যাগ

1
@ ফায়ারব্যাগ এন সাধারণত 7000 থেকে 8760 এর মধ্যে হতে চলেছে
গ্রিনগ্লাস

উত্তর:


6

কখনও কখনও এক একাধিক রিগ্রেশন, একটি যেখানে ডিভি মধ্যে এই কাজ করা সম্ভব করতে সক্ষম হতে পারেন, বি স্কোর মানুষ স্কেলে আছে, এবং C একটি ডামি কোডটি এটা হয় খ 1 বা B2 তে হয় বলছেন, lm(A~B+C+B*C)। মিথস্ক্রিয়া শব্দটি, B*Cপারস্পরিক সম্পর্ক আলাদা কিনা তা আপনাকে জানায়, যখন সি এর উভয় স্তরে A এবং B এর মধ্যে সরল opালগুলি আপনাকে পারস্পরিক সম্পর্ক বলবে।

তবে এই কাঠামোর শর্তগুলির মধ্যে সমস্ত ধরণের তুলনা মাপসই করা সম্ভব নয়। cocorআর প্যাকেজ খুবই দরকারী, এবং এটি একটি খুব সহজ হয়ে গেছে ওয়েবে পয়েন্ট-এবং-ক্লিক ইন্টারফেস। নোট করুন, বিভিন্ন হারিয়ে যাওয়া ডেটা সহ, আপনার কাছে স্বতন্ত্র বা নির্ভরশীল নমুনা নেই। এটিকে সরল রাখতে আমি এখানে তালিকাভুক্ত মুছে ফেলা ব্যবহার করব (এবং পাওয়ার আপনার পক্ষে কোনও সমস্যা নয়)।


2
যদিও এটি সবচেয়ে সংক্ষিপ্ত উত্তর, কোকারের লিঙ্কটিই আমাকে প্রয়োজনীয় তথ্যের দিকে পরিচালিত করে। অনেক ধন্যবাদ.
গ্রিনগ্লাস

15

ওহ বুটস্ট্র্যাপের শক্তি। উদাহরণের জন্য তিনটি ভেক্টরকে দেখে নেওয়া যাক:একজন, বি1 এবং বি2 কোথায়:

সিR(একজন,বি1)=0.92
সিR(একজন,বি2)=0.86
এখানে চিত্র বর্ণনা লিখুন

লক্ষ্যটি হ'ল এই দুটি ডেটা সেটের পারস্পরিক সম্পর্ক উল্লেখযোগ্যভাবে পৃথক কিনা। বুটস্ট্র্যাপ নমুনা গ্রহণ করে:

 B <- 10000
 cor1 <- cor2 <- rep(0, B)
 for(i in 1:B){
   samp <- sample(n, n, TRUE)  
   cor1[i] <- cor(A[samp], B1[samp])
   cor2[i] <- cor(A[samp], B2[samp])
 }

আমরা দুটি পারস্পরিক সম্পর্কের বুটস্ট্র্যাপ বিতরণ প্লট করতে পারি: এখানে চিত্র বর্ণনা লিখুন

আমরা এর জন্য 95% আত্মবিশ্বাস অন্তরও পেতে পারি সিR(একজন,বিআমি)

95% সিআই এর জন্য সিRR(একজন,বি1):

(0,897,0,947)

95% সিআই এর জন্য সিRR(একজন,বি2):

(0,810,0,892)

অন্তরগুলি ওভারল্যাপ না হওয়ার বিষয়টি (সবেমাত্র) আমাদের কিছু প্রমাণ দেয় যে আমরা লক্ষ্য করেছি যে নমুনা পারস্পরিক সম্পর্কের পার্থক্যটি আসলেই পরিসংখ্যানগতভাবে গুরুত্বপূর্ণ।

অ্যামিবা মন্তব্যগুলিতে যেমন উল্লেখ করেছেন, বুটস্ট্র্যাপের প্রতিটি নমুনার পার্থক্য পেয়ে আরও "শক্তিশালী" ফলাফল আসে। এখানে চিত্র বর্ণনা লিখুন

উভয়ের মধ্যে পার্থক্যের জন্য একটি 95% সিআই হ'ল:

(0,019,0,108)

ব্যবধানটি (সবে) 0 বাদ দেয় তা উল্লেখ করে আমাদের কাছে আগের মতোই প্রমাণ রয়েছে।


নিখোঁজ ডেটা সমস্যাটি পরিচালনা করতে, উভয় ডেটা সেটে থাকা জোড়া থেকে আপনার বুটস্ট্র্যাপ নমুনাগুলি নির্বাচন করুন।


7
আপনি Cor1-Cor2 এর 95% CI গণনা করে এবং এটিতে শূন্য রয়েছে কি না তা পরীক্ষা করে এই পদ্ধতিটি উন্নত করতে পারেন।
অ্যামিবা

1
এটা একটা ভাল দিক. আমি শীঘ্রই এটি অন্তর্ভুক্ত করব।
নরমসেই

শীতল, +1।
অ্যামিবা

1
এই উত্তরের জন্য আপনাকে ধন্যবাদ। এটি খুব আকর্ষণীয় এবং তথ্যমূলকভাবে লেখা হয়েছিল, যদিও এটি আমি ব্যবহার করে শেষ করি নি।
গ্রিনগ্লাস

7

ধরুন ফিশার রূপান্তর: R1'=TANH-1(R1) এবং R2'=TANH-1(R2)। অথবা, সমতুল্য এবং সম্ভবত আরও পরিষ্কার উপায়ে ( @dbwilson কে ধন্যবাদ !),R1'=12Ln(1+ +R11-R1) এবং R2'=12Ln(1+ +R21-R2)

তারপরে এটি অনুসরণ করে যে ফিশার রুপান্তরিত ভেরিয়েবলগুলি এখন সাধারণভাবে বিতরণ করা হয় এবং সাধারণত বিতরণ করা এলোমেলো ভেরিয়েবলগুলির যোগফলটি এখনও সাধারণত বিতরণ করা হয়:

z- র=R1'-R2'এস~এন(0,1)
সঙ্গে

এস=এস12+ +এস22=1এন1-3+ +1এন2-3

সুতরাং আপনি নাল অনুমান পরীক্ষা এইচ0:z- র=0 প্রাপ্তি দ্বারা পি(z- র0)=2পি(জেড>|z- র|)

অভ্যাসের তুলনায় টিসর্বশেষে, বিজ্ঞপ্তি আমরা ব্যবহার করতে পারি না টিপরিসংখ্যানগুলি খুব সহজেই দেখুন , দ্বি-টি-বিতরণের পার্থক্যের বিতরণ কী তা , তাই গণনাতে উপলব্ধ স্বাধীনতার ডিগ্রিগুলির বিষয়ে বিবেচনা করা দরকার, অর্থাৎ আমরা ধরে নিইএন যথেষ্ট পরিমাণে বড় তাই স্বাভাবিক আনুপাতিকভাবে সংশ্লিষ্টদের পক্ষে যুক্তিযুক্ত হতে পারে টি পরিসংখ্যান।

-

@ জোশের মন্তব্যের পরে , আমরা কিছুটা নমুনাগুলির মধ্যে পারস্পরিক নির্ভরতার সম্ভাবনাটি সংযুক্ত করতে পারি (মনে রাখবেন উভয় পারস্পরিক সম্পর্ক এ এর ​​বন্টনের উপর নির্ভর করে)। স্বতন্ত্র নমুনাগুলি ধরে না রেখে এবং কাচি-শোয়ার্জ অসমতা ব্যবহার না করে আমরা নিম্নলিখিত উপরের আবদ্ধ পেতে পারি (দেখুন: আমি দুটি উপায়ের মধ্যে পার্থক্যের আদর্শ বিচ্যুতিটি কীভাবে খুঁজে পাব ? ):

এসএস1+ +এস2

এস1এন1-3+ +1এন2-3

2
এটি আমার প্রস্তাবনা ছিল তবে ফিশারের জেড ট্রান্সফর্মেশনের বিকল্প সূত্রটি হল z = .5 * এলএন ((1 + আর) / (1-আর))। প্রতিটি আর এর জন্য এটি করুন এবং উপরে হিসাবে এগিয়ে যান।
dbwilson

@ ডিবিউইলসন ওহ হ্যাঁ (+১), তারা সমান, আমি আপনার পরামর্শটি যুক্ত করব যাতে এটি আরও বিস্তৃত দর্শকদের কাছে পরিষ্কার হয়।
ফায়ারব্যাগ

এই সূত্রটি কি মধ্যবর্তীতা স্বীকার করে না? R1 এবং R2? আমি
জোশ

6

মার্ক হোয়াইটের কাছ থেকে সহায়ক প্রতিক্রিয়ার পরে সম্পাদিত (আপনাকে ধন্যবাদ!)

একটি বিকল্প হ'ল উভয় সম্পর্ককে (এ-এর সাথে বি 1, এবং এ-এর সাথে বি 2) গণনা করা যা তাদের মধ্যে পার্থক্যটিও অনুমান করে। একাধিক রিগ্রেশন সহ এটি করা সহজ । আপনি নির্ভরশীল ভেরিয়েবল হিসাবে এ এর ​​সাথে একটি মডেল চালাতেন, এবং তারপরে বি 1 এবং বি 2 এর জন্য সমস্ত স্কোর সহ একটানা চলমান চলক, এটি একটি চলক পরিবর্তনশীল যা এটি পরিবর্তনশীল (বি 1 বা বি 2), এবং তাদের মধ্যে মিথস্ক্রিয়া নির্দেশ করে। র মধ্যে:

> set.seed(24601)
> 
> library(tidyverse)
> library(mvtnorm)
> cov <- matrix(c(1, .4, .16,.4, 1, .4, .16, .4, 1), ncol=3, byrow=TRUE)
> mydata <- rmvnorm(n=100, sigma = cov)
> colnames(mydata) = c("A", "B1", "B2")
> head(mydata)
              A         B1         B2
[1,] -0.1046382  0.6031253  0.5641158
[2,] -1.9303293 -0.7663828 -0.7921836
[3,]  0.1244192 -0.4413581 -1.2376256
[4,] -3.2822601 -1.2512055 -0.5586773
[5,] -0.9543368 -0.1743740  1.1884185
[6,] -0.4843183 -0.2612668 -0.7161938

আমি উত্পন্ন ডেটা থেকে পারস্পরিক সম্পর্ক এখানে:

> cor(mydata)
           A        B1        B2
A  1.0000000 0.4726093 0.3043496
B1 0.4726093 1.0000000 0.3779376
B2 0.3043496 0.3779376 1.0000000
> 

মডেলের প্রয়োজনীয়তা পূরণের জন্য ডেটা ফর্ম্যাট পরিবর্তন করা ("দীর্ঘ" এ পুনরায় ফর্ম্যাট করা):

> mydata <- as.data.frame(mydata) %>% 
+   gather("var", "value", B1, B2)
> 

মডেলটি এখানে:

সংক্ষিপ্তসার (lm (A var value * var, ডেটা = মাইডাটা))

Call:
lm(formula = A ~ value * var, data = mydata)

Residuals:
     Min       1Q   Median       3Q      Max 
-2.89310 -0.52638  0.02998  0.64424  2.85747 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.09699    0.09014  -1.076    0.283    
value        0.47445    0.09305   5.099 8.03e-07 ***
varB2       -0.10117    0.12711  -0.796    0.427    
value:varB2 -0.13256    0.13965  -0.949    0.344    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.891 on 196 degrees of freedom
Multiple R-squared:  0.158, Adjusted R-squared:  0.1451 
F-statistic: 12.26 on 3 and 196 DF,  p-value: 2.194e-07

এখানকার ফলাফলগুলি (আমার তৈরি তথ্য থেকে) বোঝায় যে বি 1 এবং এ এর ​​মধ্যে একটি গুরুত্বপূর্ণ সম্পর্ক রয়েছে ("মান" সহগের পরীক্ষা, যেহেতু বি 1 "" বর্ণ "সহগের জন্য রেফারেন্স গ্রুপ) তবে পার্থক্যটি A এর সাথে B1 সম্পর্ক এবং A এর সাথে B2 সম্পর্ক উল্লেখযোগ্য নয় ("মান: varB2" সহগের পরীক্ষা)।

আপনি যদি রিগ্রেশন সহগের তুলনায় পারস্পরিক সম্পর্কের দিক থেকে চিন্তা করতে চান তবে মডেলটি চালানোর আগে আপনার সমস্ত ভেরিয়েবলগুলি (এ, বি 1, এবং বি 2) মানিক করুন এবং আপনি যে রিগ্রেশন সহগগুলি পাবেন তা মানদণ্ডী হয়ে উঠবে (একেবারে একই জিনিস নয়) জিরো-অর্ডার পারস্পরিক সম্পর্ক, তবে ব্যাখ্যার ক্ষেত্রে অনেক বেশি কাছাকাছি)।

এছাড়াও মনে রাখবেন যে এটি আপনার বিশ্লেষণকে কেবলমাত্র B1 এবং B2 উভয় ক্ষেত্রে ( তালিকা অনুযায়ী মুছে ফেলা ) সীমাবদ্ধ করবে । যতক্ষণ না এটি আপনাকে আন্ডার পাওয়ার না করার জন্য পর্যাপ্ত ডেটা রেখে দেয় এবং যতক্ষণ না অনুপস্থিত তথ্য এলোমেলোভাবে অনুপস্থিত হয় (বা মোট তথ্যের একটি সামান্য পরিমাণ অনুপস্থিত থাকলেও তারা অযৌক্তরূপে নিখোঁজ থাকলেও খুব বেশি কিছু আসে না), তবে এটি ঠিক আছে।

আপনি যে বি 1 এবং বি 2 উভয়েরই প্রভাব অনুমানের জন্য একই বিশ্লেষণকে একই ডেটাसेटে সীমাবদ্ধ করে রেখেছেন (গুমের বিভিন্ন ধরণের ভিত্তিতে কিছুটা আলাদা ডেটাসেট ব্যবহার না করে) কিছুটা হলেও পারস্পরিক পার্থক্যের পার্থক্যটির ব্যাখ্যা করার সুবিধা রয়েছে আরও সোজা। যদি আপনি প্রতিটিটির জন্য পৃথকভাবে পৃথক পৃথক গণনা করে থাকেন এবং তারপরে পার্থক্যটি পরীক্ষা করেন তবে আপনি এই সমস্যাটিতে ছুঁড়েছেন যে অন্তর্নিহিত তথ্য প্রতিটি ক্ষেত্রেই কিছুটা আলাদা --- আপনি যে কোনও পার্থক্য দেখেন নমুনাগুলির পার্থক্যের কারণে তত বেশি পার্থক্য থাকতে পারে ভেরিয়েবলের মধ্যে প্রকৃত সম্পর্কের মধ্যে।


2
এটি কি সেই ক্ষেত্রে lm(A~B1*B2)পরীক্ষিত হবে না যেটির মধ্যে পারস্পরিক সম্পর্ক B1এবং A কারও B2স্কোরের উপর নির্ভর করে ? পারস্পরিক মিথস্ক্রিয়া শব্দটি পারস্পরিক সম্পর্ক আলাদা কিনা তা পরীক্ষা করছে না; দুজন ভবিষ্যদ্বাণীকারী একে অপরের সাথে যোগাযোগ করে কিনা তা এটি পরীক্ষা করছে। আপনি একটি ডামি কোড তৈরি করতে পারে, Cযে জন্য কোড থাকুক বা না থাকুক স্কেল Bহয় B1বা B2। তারপর যে আপনাকে বলতে হবে মধ্যে পারস্পরিক Bএবং Aযদি তা না হয় উপর নির্ভর করে B1বা B2হয় যে, যদি সম্পর্কযুক্তরূপে ভিন্ন।
মার্ক হোয়াইট

1
@ মার্কউইট ওহ গুশ, আপনি সম্পূর্ণই ঠিক বলেছেন! এটি ধরার জন্য ধন্যবাদ বাবা! আমি এটি ঠিক করতে সম্পাদনা করব।
রোজ হার্টম্যান
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.