দুটি বুলিয়ান ভেক্টর রয়েছে, যার মধ্যে কেবল 0 এবং 1 রয়েছে। আমি যদি পিয়ারসন বা স্পিয়ারম্যান পারস্পরিক সম্পর্ক গণনা করি তবে সেগুলি অর্থবোধক বা যুক্তিসঙ্গত?
দুটি বুলিয়ান ভেক্টর রয়েছে, যার মধ্যে কেবল 0 এবং 1 রয়েছে। আমি যদি পিয়ারসন বা স্পিয়ারম্যান পারস্পরিক সম্পর্ক গণনা করি তবে সেগুলি অর্থবোধক বা যুক্তিসঙ্গত?
উত্তর:
পিয়ারসন এবং স্পিয়ারম্যান পারস্পরিক সম্পর্কটিকে দ্বিগুণ দুটি বাইনারি ভেরিয়েবলের জন্য যতক্ষণ না আপনার কাছে টি এবং কিছু s রয়েছে ততক্ষণ সংজ্ঞায়িত করা হয়, এবং । দুটি ভেরিয়েবলের একটি বিক্ষিপ্ত প্লটের কথা চিন্তা করে তারা কী বোঝায় তার একটি ভাল গুণগত ধারণা পাওয়া সহজ। স্পষ্টতই, কেবলমাত্র চারটি সম্ভাবনা রয়েছে (যাতে ভিজ্যুয়ালাইজেশনের জন্য পৃথক পয়েন্টগুলিকে ঝাঁকুনি দেওয়া একটি ভাল ধারণা)। উদাহরণস্বরূপ, যে কোনও পরিস্থিতিতে যেখানে দুটি ভেক্টর অভিন্ন, প্রতিটি ক্ষেত্রে কিছু 0 এবং কিছু 1s থাকা সাপেক্ষে, তারপরে এবং সংযোগটি প্রয়োজনীয়ভাবে । একইভাবে, সম্ভবএবং তারপরে পারস্পরিক সম্পর্ক ।
এই সেট আপের জন্য, একঘেয়ে সম্পর্কের কোনও সুযোগ নেই যা লিনিয়ার নয়। যখন পদমর্যাদার গ্রহণ s এবং চলিত midrank সম্মেলন অধীনে গুলি পদমর্যাদার মাত্র মূল একটি রৈখিক রূপান্তর হয় s এবং s এবং Spearman পারস্পরিক সম্পর্ক অগত্যা পিয়ারসন পারস্পরিক সম্পর্ক অভিন্ন। সুতরাং স্পিয়ারম্যান পারস্পরিক সম্পর্ককে এখানে আলাদাভাবে বিবেচনা করার বা যুক্তিযুক্ত কোনও কারণ নেই।
ও টি জড়িত কিছু সমস্যার জন্য প্রাকৃতিকভাবে উত্সাহের উদ্ভব হয় , যেমন সময় বা স্থানের বাইনারি প্রক্রিয়াগুলির অধ্যয়নের মধ্যে। তবে সামগ্রিকভাবে, এই জাতীয় গবেষণার মূল উদ্দেশ্যটির উপর নির্ভর করে এই জাতীয় ডেটা সম্পর্কে চিন্তাভাবনার আরও ভাল উপায় থাকবে। উদাহরণস্বরূপ, পারস্পরিক সম্পর্কগুলি অনেক অর্থবোধ করে এমন অর্থ এই নয় যে লিনিয়ার রিগ্রেশন বাইনারি প্রতিক্রিয়ার মডেল করার একটি ভাল উপায়। যদি বাইনারি ভেরিয়েবলগুলির মধ্যে একটি যদি একটি প্রতিক্রিয়া হয়, তবে বেশিরভাগ পরিসংখ্যানের লোকেরা লগিট মডেল বিবেচনা করে শুরু করবে would
বাইনারি ভেক্টরগুলির জন্য বিশেষত সাদৃশ্য মেট্রিক রয়েছে যেমন:
প্রভৃতি
বিশদ জন্য, এখানে দেখুন ।
বাইনারি ডেটার জন্য আমি পিয়ারসনের পারস্পরিক সম্পর্ক সহগ ব্যবহার করার পরামর্শ দেব না, নীচের কাউন্টার-উদাহরণটি দেখুন:
set.seed(10)
a = rbinom(n=100, size=1, prob=0.9)
b = rbinom(n=100, size=1, prob=0.9)
বেশিরভাগ ক্ষেত্রে উভয়ই 1 দেয়
table(a,b)
> table(a,b)
b
a 0 1
0 0 3
1 9 88
তবে পারস্পরিক সম্পর্ক এটি দেখায় না
cor(a, b, method="pearson")
> cor(a, b, method="pearson")
[1] -0.05530639
জ্যাকার্ড সূচকের মতো একটি বাইনারি মিলের পরিমাপ যদিও অনেক বেশি সংযুক্তি দেখায়:
install.packages("clusteval")
library('clusteval')
cluster_similarity(a,b, similarity="jaccard", method="independence")
> cluster_similarity(a,b, similarity="jaccard", method="independence")
[1] 0.7854966
কেন? এখানে সরল দ্বিঘাতের প্রতিরোধের দেখুন
plot(jitter(a, factor = .25), jitter(b, factor = .25), xlab="a", ylab="b", pch=15, col="blue", ylim=c(-0.05,1.05), xlim=c(-0.05,1.05))
abline(lm(a~b), lwd=2, col="blue")
text(.5,.9,expression(paste(rho, " = -0.055")))
প্লট নীচে (পয়েন্ট সংখ্যা পরিষ্কার করার জন্য ছোট শব্দ যোগ করা)