দুটি বুলিয়ান ভেক্টরের মধ্যে পিয়ারসন বা স্পিয়ারম্যান পারস্পরিক সম্পর্ক গণনা করা কি অর্থবহ?


42

দুটি বুলিয়ান ভেক্টর রয়েছে, যার মধ্যে কেবল 0 এবং 1 রয়েছে। আমি যদি পিয়ারসন বা স্পিয়ারম্যান পারস্পরিক সম্পর্ক গণনা করি তবে সেগুলি অর্থবোধক বা যুক্তিসঙ্গত?


2
উভয় ভেরিয়েবলগুলি দ্বিখণ্ডিত হলে, পিয়ারসন = স্পিয়ারম্যান = কেন্ডালের টাউ। হ্যাঁ এর সংবেদন থাকতে পারে। সত্যিকার অর্থে বাইনারি (বুলিয়ান) ডেটা সহ এটি কেন্দ্রীভূত না করে ডেটাগুলিতে "পিয়ারসন" গণনা করার অনুভূতি তৈরি করে, এটি কোসাইন হবে।
ttnphns

1
... এবং = ফি (মানকৃত চি-স্কোয়ার) যা স্কেল থেকে এককটিজেন্সির টেবিলে নিয়ে আসে।
ttnphns

উত্তর:


34

পিয়ারসন এবং স্পিয়ারম্যান পারস্পরিক সম্পর্কটিকে দ্বিগুণ দুটি বাইনারি ভেরিয়েবলের জন্য যতক্ষণ না আপনার কাছে টি এবং কিছু s রয়েছে ততক্ষণ সংজ্ঞায়িত করা হয়, এবং । দুটি ভেরিয়েবলের একটি বিক্ষিপ্ত প্লটের কথা চিন্তা করে তারা কী বোঝায় তার একটি ভাল গুণগত ধারণা পাওয়া সহজ। স্পষ্টতই, কেবলমাত্র চারটি সম্ভাবনা রয়েছে (যাতে ভিজ্যুয়ালাইজেশনের জন্য পৃথক পয়েন্টগুলিকে ঝাঁকুনি দেওয়া একটি ভাল ধারণা)। উদাহরণস্বরূপ, যে কোনও পরিস্থিতিতে যেখানে দুটি ভেক্টর অভিন্ন, প্রতিটি ক্ষেত্রে কিছু 0 এবং কিছু 1s থাকা সাপেক্ষে, তারপরে এবং সংযোগটি প্রয়োজনীয়ভাবে । একইভাবে, সম্ভব01yx(0,0),(0,1),(1,0),(1,1)y=x1y=1xএবং তারপরে পারস্পরিক সম্পর্ক ।1

এই সেট আপের জন্য, একঘেয়ে সম্পর্কের কোনও সুযোগ নেই যা লিনিয়ার নয়। যখন পদমর্যাদার গ্রহণ s এবং চলিত midrank সম্মেলন অধীনে গুলি পদমর্যাদার মাত্র মূল একটি রৈখিক রূপান্তর হয় s এবং s এবং Spearman পারস্পরিক সম্পর্ক অগত্যা পিয়ারসন পারস্পরিক সম্পর্ক অভিন্ন। সুতরাং স্পিয়ারম্যান পারস্পরিক সম্পর্ককে এখানে আলাদাভাবে বিবেচনা করার বা যুক্তিযুক্ত কোনও কারণ নেই।0101

ও টি জড়িত কিছু সমস্যার জন্য প্রাকৃতিকভাবে উত্সাহের উদ্ভব হয় , যেমন সময় বা স্থানের বাইনারি প্রক্রিয়াগুলির অধ্যয়নের মধ্যে। তবে সামগ্রিকভাবে, এই জাতীয় গবেষণার মূল উদ্দেশ্যটির উপর নির্ভর করে এই জাতীয় ডেটা সম্পর্কে চিন্তাভাবনার আরও ভাল উপায় থাকবে। উদাহরণস্বরূপ, পারস্পরিক সম্পর্কগুলি অনেক অর্থবোধ করে এমন অর্থ এই নয় যে লিনিয়ার রিগ্রেশন বাইনারি প্রতিক্রিয়ার মডেল করার একটি ভাল উপায়। যদি বাইনারি ভেরিয়েবলগুলির মধ্যে একটি যদি একটি প্রতিক্রিয়া হয়, তবে বেশিরভাগ পরিসংখ্যানের লোকেরা লগিট মডেল বিবেচনা করে শুরু করবে would01


1
এই পরিস্থিতিতে এর অর্থ কি, পিয়ারসন বা স্পিয়ারম্যান পারস্পরিক সম্পর্ক সহগ এই দুটি বাইনারি ভেক্টরগুলির জন্য ভাল মিলের মেট্রিক নয়?
ঝিলং জিয়া

হ্যাঁ এই অর্থে যে এটি সাদৃশ্য পরিমাপ করে না এবং এটি সমস্ত 0 এর জন্য বা সমস্ত ভেক্টরের জন্য 1s এর জন্য সংজ্ঞায়িত।
নিক কক্স

২ টি অভিন্ন বা 'বিপরীত' ভেক্টর কেস আমার কাছে পরিষ্কার নয়। যদি x = c (1,1,1,1,1) এবং y = (0,0,0,0,0) হয় তবে y = 1-x এবং মনে হচ্ছে আপনি এটি অবশ্যই সংজ্ঞা অনুসারে বলছেন , -1 এর অন্তর্নিহিত পারস্পরিক সম্পর্ক সমানভাবে y = x-1 এর সাথে 1 + এর পারস্পরিক সম্পর্ক রয়েছে। স্ক্রেটারপ্লোটে কেবলমাত্র 1 পয়েন্ট (5 টি প্রতিলিপি) রয়েছে যাতে কোনও সরল রেখাটি এর মাধ্যমে আঁকতে পারে। মনে হচ্ছে এই উদাহরণটিতে পারস্পরিক সম্পর্ক অনির্ধারিত। আপনি যদি বোঝাতে চেয়েছিলেন তবে আমি যদি ভুল বুঝতে পারি তবে দুঃখিত। @ নিককক্স
প্রধানমন্ত্রী

2
না; আমি এটি বলছি না, যেহেতু আমি আমার প্রথম বাক্যে দেখিয়েছি যে পারস্পরিক সম্পর্কের সংজ্ঞা দেওয়ার জন্য আপনার অবশ্যই 0 এবং 1 এর মিশ্রণ থাকতে হবে। অন্যথায় যদি কোনও ভেরিয়েবলের এসডি 0 হয় তবে পারস্পরিক সম্পর্ক নির্ধারিত হয়। তবে আমি আমার উত্তরটি সম্পাদনা করে দুবার উল্লেখ করেছি।
নিক কক্স

15

বাইনারি ভেক্টরগুলির জন্য বিশেষত সাদৃশ্য মেট্রিক রয়েছে যেমন:

  • Jaccard-নিডহ্যাম
  • ছক্কা
  • ইউল
  • রাসেল-রাও
  • সোকাল-Michener
  • রজার্স-Tanimoto
  • Kulzinsky

প্রভৃতি

বিশদ জন্য, এখানে দেখুন


5
অবশ্যই আরও অনেক নির্ভরযোগ্য এবং বিস্তৃত রেফারেন্স রয়েছে। এমনকি লেখকের নাম ঠিকঠাক পাওয়ার স্তরেও কুলসিজিস্কি এবং তানিমোটো নোট করুন। উদাহরণস্বরূপ হুবলেেক, জেড। 1982 দেখুন association জৈবিক পর্যালোচনা 57: 669–689।
নিক কক্স

5
তারা স্পষ্টতই 'তানিমোটো' ভুল বানান করেছে তবে 'কুলজিনস্কি' উদ্দেশ্যমূলকভাবে সরল করা হয়েছে। আপনার রেফারেন্স সন্দেহ ছাড়াই আরও বিশ্বাসযোগ্য তবে এটি সবার কাছে অ্যাক্সেসযোগ্য নয়।
ডিজিও

0

বাইনারি ডেটার জন্য আমি পিয়ারসনের পারস্পরিক সম্পর্ক সহগ ব্যবহার করার পরামর্শ দেব না, নীচের কাউন্টার-উদাহরণটি দেখুন:

set.seed(10) 
a = rbinom(n=100, size=1, prob=0.9) 
b = rbinom(n=100, size=1, prob=0.9)

বেশিরভাগ ক্ষেত্রে উভয়ই 1 দেয়

table(a,b)

> table(a,b)
   b
a    0  1
  0  0  3
  1  9 88

তবে পারস্পরিক সম্পর্ক এটি দেখায় না

cor(a, b, method="pearson")

> cor(a, b, method="pearson")
[1] -0.05530639

জ্যাকার্ড সূচকের মতো একটি বাইনারি মিলের পরিমাপ যদিও অনেক বেশি সংযুক্তি দেখায়:

install.packages("clusteval")
library('clusteval')
cluster_similarity(a,b, similarity="jaccard", method="independence")

> cluster_similarity(a,b, similarity="jaccard", method="independence")
[1] 0.7854966

কেন? এখানে সরল দ্বিঘাতের প্রতিরোধের দেখুন

plot(jitter(a, factor = .25), jitter(b, factor = .25), xlab="a", ylab="b", pch=15, col="blue", ylim=c(-0.05,1.05), xlim=c(-0.05,1.05))
abline(lm(a~b), lwd=2, col="blue")
text(.5,.9,expression(paste(rho, " = -0.055")))

প্লট নীচে (পয়েন্ট সংখ্যা পরিষ্কার করার জন্য ছোট শব্দ যোগ করা) বিভারিয়েট রিগ্রেশন লাইন

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.