এবং পিয়ারসনের এর মধ্যে কখন নির্বাচন করবেন তা আমি কীভাবে জানতে পারি ? আমার পরিবর্তনশীল সন্তুষ্টি অন্তর্ভুক্ত এবং স্কোর এর যোগফল ব্যবহার করে স্কোর ব্যাখ্যা করা হয়। তবে এই স্কোরগুলিও স্থান পেতে পারে ranked
এবং পিয়ারসনের এর মধ্যে কখন নির্বাচন করবেন তা আমি কীভাবে জানতে পারি ? আমার পরিবর্তনশীল সন্তুষ্টি অন্তর্ভুক্ত এবং স্কোর এর যোগফল ব্যবহার করে স্কোর ব্যাখ্যা করা হয়। তবে এই স্কোরগুলিও স্থান পেতে পারে ranked
উত্তর:
আপনি যদি নিজের ডেটা অন্বেষণ করতে চান তবে উভয়ই গণনা করা ভাল, যেহেতু স্পিয়ারম্যান (এস) এবং পিয়ারসন (পি) পারস্পরিক সম্পর্ক কিছু তথ্য দেবে। সংক্ষেপে, এস পদমর্যাদায় গণনা করা হয় এবং তাই পি সত্যিকারের মানগুলিতে থাকে এবং একরকম সম্পর্কের চিত্রিত করে এবং লিনিয়ার সম্পর্ককে চিত্রিত করে।
উদাহরণ হিসাবে, যদি আপনি সেট করেন:
x=(1:100);
y=exp(x); % then,
corr(x,y,'type','Spearman'); % will equal 1, and
corr(x,y,'type','Pearson'); % will be about equal to 0.25
এর কারণ হল সাথে একচেটিয়াভাবে বৃদ্ধি পায় তাই স্পিয়ারম্যান পারস্পরিক সম্পর্ক নিখুঁত তবে লিনিয়ারে নয়, তাই পিয়ারসন পারস্পরিক সম্পর্ক অসম্পূর্ণ।
corr(x,log(y),'type','Pearson'); % will equal 1
উভয়টি করা আকর্ষণীয় কারণ আপনার যদি এস> পি থাকে তবে এর অর্থ হল যে আপনার সাথে একটি সম্পর্ক রয়েছে যা একঘেয়েমি তবে লিনিয়ার নয়। যেহেতু পরিসংখ্যানগুলিতে রৈখিকতা থাকা ভাল (এটি সহজ) আপনি তে (যেমন একটি লগ) একটি রূপান্তর প্রয়োগ করার চেষ্টা করতে পারেন ।
আমি আশা করি এটি পারস্পরিক সম্পর্কের ধরণের পার্থক্যগুলি বুঝতে সহজতর হতে সহায়তা করে।
সবচেয়ে ছোট এবং বেশিরভাগ সঠিক উত্তরটি হ'ল:
পিয়ারসন বেঞ্চমার্কস লিনিয়ার সম্পর্ক, স্পিয়ারম্যান বেঞ্চমার্কগুলি একঘেয়ে সম্পর্ক (কয়েকটি অসম্পূর্ণতা আরও সাধারণ ক্ষেত্রে, তবে কিছুটা পাওয়ার ট্রেড অফের জন্য)।
সুতরাং আপনি যদি ধরে নেন / ভাবেন যে সম্পর্কটি লিনিয়ার (বা, বিশেষ ক্ষেত্রে হিসাবে, এটি একই জিনিসটির দুটি পদক্ষেপ, সুতরাং সম্পর্কটি ) এবং পরিস্থিতি খুব ক্লান্ত হয় না (বিশদগুলির জন্য অন্যান্য উত্তরগুলি দেখুন), পিয়ারসনের সাথে যান। অন্যথায় স্পিয়ারম্যান ব্যবহার করুন।
এটি প্রায়শই পরিসংখ্যানগুলিতে ঘটে: বিভিন্ন পরিস্থিতিতে বিভিন্ন পদ্ধতি রয়েছে যা আপনার পরিস্থিতিতে প্রয়োগ করা যেতে পারে এবং কোনটি চয়ন করবেন তা আপনি জানেন না। বিবেচনাধীন পদ্ধতিগুলি এবং আপনার সমস্যার সুনির্দিষ্ট বৈশিষ্ট্যগুলির বিষয়ে আপনার সিদ্ধান্তের ভিত্তি করা উচিত, তবে তারপরেও সিদ্ধান্তটি সাধারণত "সম্মত" সঠিক উত্তর না দিয়েই বিষয়ভিত্তিক হয়। সাধারণত যথাযথ বলে মনে হচ্ছে এমন অনেকগুলি পদ্ধতি ব্যবহার করে নেওয়া ভাল ধারণা এবং আপনার ধৈর্যটি মঞ্জুরি দেয় এবং শেষ পর্যন্ত কোনটি আপনাকে সেরা ফলাফল দেয় তা দেখুন।
পিয়ারসন পারস্পরিক সম্পর্ক এবং স্পিয়ারম্যান পারস্পরিক সম্পর্কের মধ্যে পার্থক্য হ'ল পিয়ারসন একটি বিরতি স্কেল থেকে নেওয়া পরিমাপের জন্য সবচেয়ে উপযুক্ত , অন্যদিকে স্পিয়ারম্যান অর্ডিনাল স্কেলগুলি থেকে নেওয়া পরিমাপের জন্য আরও উপযুক্ত । অন্তর্বর্তী স্কেলের উদাহরণগুলির মধ্যে রয়েছে "ফারেনহাইটে তাপমাত্রা" এবং "ইঞ্চি দৈর্ঘ্য", যার মধ্যে পৃথক ইউনিট (1 ডিগ্রি এফ, 1 ইন) অর্থবহ। "সন্তুষ্টি স্কোর" এর মতো বিষয়গুলি অর্ডিনাল ধরণের হয়ে থাকে কারণ এটি স্পষ্ট যে "5 সুখ" "3 সুখ" এর চেয়ে সুখী, আপনি "সুখের 1 একক" এর অর্থপূর্ণ ব্যাখ্যা দিতে পারবেন কিনা তা পরিষ্কার নয়। কিন্তু আপনি যখন যোগ অর্ডিনাল ধরণের অনেক পরিমাপ, যা আপনার ক্ষেত্রে আপনার কাছে রয়েছে, আপনি এমন একটি পরিমাপ শেষ করেন যা সত্যিই অর্ডিনাল বা বিরতি নয় এবং ব্যাখ্যা করা শক্ত।
আমি আপনাকে সুপারিশ করব যে আপনি আপনার সন্তুষ্টি স্কোরকে কোয়ান্টাইল স্কোরগুলিতে রূপান্তর করুন এবং তারপরে অঙ্কগুলির সাথে কাজ করুন, কারণ এটি আপনাকে এমন ডেটা দেবে যা ব্যাখ্যার জন্য আরও কিছুটা সাবলীল। তবে এই ক্ষেত্রেও এটি পরিষ্কার নয় যে পিয়ারসন বা স্পিয়ারম্যান আরও উপযুক্ত হবে কিনা।
আমি আজ একটি আকর্ষণীয় কর্নার কেস মধ্যে দৌড়ে।
যদি আমরা খুব অল্প সংখ্যক নমুনার দিকে তাকাই তবে স্পিয়ারম্যান এবং পিয়ারসনের পার্থক্য নাটকীয় হতে পারে।
নীচের ক্ষেত্রে, দুটি পদ্ধতি একেবারে বিপরীত পারস্পরিক সম্পর্ককে প্রতিবেদন করে ।
স্পিয়ারম্যান বনাম পিয়ারসন সম্পর্কে সিদ্ধান্ত নেওয়ার জন্য থাম্বের কয়েকটি দ্রুত নিয়ম:
PS উপরের গ্রাফটি পুনরুত্পাদন করতে এখানে আর কোড দেওয়া আছে:
# Script that shows that in some corner cases, the reported correlation for spearman can be
# exactly opposite to that for pearson. In this case, spearman is +0.4 and pearson is -0.4.
y = c(+2.5,-0.5, -0.8, -1)
x = c(+0.2,-3, -2.5,+0.6)
plot(y ~ x,xlim=c(-6,+6),ylim=c(-1,+2.5))
title("Correlation: corner case for Spearman vs. Pearson\nNote that they are exactly opposite each other (-0.4 vs. +0.4)")
abline(v=0)
abline(h=0)
lm1=lm(y ~ x)
abline(lm1,col="red")
spearman = cor(y,x,method="spearman")
pearson = cor(y,x,method="pearson")
legend("topleft",
c("Red line: regression.",
sprintf("Spearman: %.5f",spearman),
sprintf("Pearson: +%.5f",pearson)
))
চার্লস জবাবের সাথে একমত হওয়ার সময়, আমি আপনাকে পরামর্শ দিয়েছি (কঠোরভাবে ব্যবহারিক স্তরে) যে আপনি উভয় সহগকে গুণান এবং পার্থক্যগুলি দেখুন look অনেক ক্ষেত্রে এগুলি হুবহু এক রকম হবে, তাই আপনার চিন্তার দরকার নেই।
তবে, এগুলি পৃথক হলে আপনাকে পিয়ারসনের অনুধাবনগুলি (ধ্রুবক বৈকল্পিকতা এবং লিনিয়ারিটি) পূরণ করেছেন কিনা এবং আপনার যদি এটি পূরণ না করা হয় তবে আপনার স্পিয়ারম্যানস ব্যবহার করা ভাল।