প্রদত্ত ডেটাসেটের জন্য পিয়ারসন এবং স্পিয়ারম্যানের পারস্পরিক সম্পর্কের মধ্যে পারস্পরিক সম্পর্ক সহগতে বড় পার্থক্য কী হতে পারে?

দুটি ভেরিয়েবলের মধ্যে পিয়ারসনের সহগ যথেষ্ট উচ্চ (r = .65)। তবে আমি যখন পরিবর্তনশীল মানগুলিকে র‌্যাঙ্ক করি এবং একটি স্পিয়ারম্যানের পারস্পরিক সম্পর্ক চালনা করি, তখন কফিশিয়েন্ট মানটি খুব কম হয় (r = .30)।

এর ব্যাখ্যা কী?

correlation spearman-rho

— user3671
সূত্র

পারস্পরিক সম্পর্ক সহগের ব্যাখ্যা দেওয়ার আগে ডেটাগুলির একটি স্ক্র্যাটারপ্লট দেখানো সাধারণত ভাল ধারণা।

— chl

আপনার নমুনা আকার কি?

— জেরোমি অ্যাংলিম

কেন বড় পার্থক্য

যদি আপনার ডেটা সাধারণত বিতরণ করা হয় বা অভিন্নভাবে বিতরণ করা হয় তবে আমি মনে করি স্পিয়ারম্যান এবং পিয়ারসনের পারস্পরিক সম্পর্ক মোটামুটি একই রকম হওয়া উচিত।
যদি তারা আপনার ক্ষেত্রে (.65 বনাম .30) এর মতো খুব আলাদা ফলাফল দিচ্ছে তবে আমার ধারণা হ'ল আপনার কাছে ডেটা বা আউটিলারগুলি স্কিউ আছে এবং আউটলিয়াররা পিয়ারসনের পারস্পরিক সম্পর্ককে স্পিয়ারম্যানের পারস্পরিক সম্পর্কের চেয়ে বড় হতে পরিচালিত করছে। অর্থাৎ X এর খুব উচ্চ মানের মান Y এর সাথে খুব উচ্চ মানের সহাবস্থান হতে পারে।
@ chl স্পট চালু আছে। আপনার প্রথম পদক্ষেপটি বিক্ষিপ্ত প্লটের দিকে নজর দেওয়া উচিত।
সাধারণভাবে, পিয়ারসন এবং স্পিয়ারম্যানের মধ্যে এত বড় পার্থক্য হল এটি একটি লাল পতাকা যা বোঝায়
- পিয়ারসন পারস্পরিক সম্পর্ক আপনার দুটি ভেরিয়েবলের মধ্যে অ্যাসোসিয়েশনের দরকারী সংক্ষিপ্তসার বা নাও হতে পারে
- পিয়ারসনের পারস্পরিক সম্পর্ক ব্যবহারের আগে আপনার এক বা উভয় ভেরিয়েবলের রূপান্তর করা উচিত, বা
- পিয়ারসনের পারস্পরিক সম্পর্ক ব্যবহারের আগে আপনাকে অপসারণকারীদের অপসারণ বা সামঞ্জস্য করা উচিত।

সাধারণ আর উদাহরণ

নিম্নলিখিতটি কীভাবে ঘটতে পারে তার একটি সাধারণ সিমুলেশন। নোট করুন যে নীচের ক্ষেত্রে একক আউটলেটর জড়িত, তবে আপনি একাধিক বহিরাগত বা স্কিউড ডেটা দিয়ে একই প্রভাব তৈরি করতে পারেন।

# Set Seed of random number generator
set.seed(4444)

# Generate random data
# First, create some normally distributed correlated data
x1 <- rnorm(200)
y1 <- rnorm(200) + .6 * x1

# Second, add a major outlier
x2 <- c(x1, 14)
y2 <- c(y1, 14)

# Plot both data sets
par(mfrow=c(2,2))
plot(x1, y1, main="Raw no outlier")
plot(x2, y2, main="Raw with outlier")

plot(rank(x1), rank(y1), main="Rank no outlier")
plot(rank(x2), rank(y2), main="Rank with outlier")

# Calculate correlations on both datasets
round(cor(x1, y1, method="pearson"), 2)
round(cor(x1, y1, method="spearman"), 2)
round(cor(x2, y2, method="pearson"), 2)
round(cor(x2, y2, method="spearman"), 2)

যা এই আউটপুট দেয়

[1] 0.44
[1] 0.44
[1] 0.7
[1] 0.44

পারস্পরিক সম্পর্ক বিশ্লেষণ দেখায় যে আউটলেট স্পিয়ারম্যান এবং পিয়ারসন ব্যতীত একেবারে মিল রয়েছে এবং বরং চূড়ান্ত আউটলেটারের সাথে পারস্পরিক সম্পর্ক একেবারেই আলাদা।

নীচের প্লটটি দেখায় যে কীভাবে ডেটাগুলি পদমর্যাদার হিসাবে আচরণ করা আউটলারের চরম প্রভাবকে সরিয়ে দেয়, সুতরাং স্পিয়ারম্যানকে আউটলেটারের সাথে এবং তার বাইরেও একইরকম হতে দেখা যায় যেখানে পিয়ারসন যোগ করা হলে পিয়ারসন একেবারেই আলাদা হন। স্পিয়ারম্যানকে প্রায়শই শক্তিশালী বলা হয় এটি এটি হাইলাইট করে।

এখানে চিত্র বর্ণনা লিখুন

— জেরোমি অ্যাংলিম
সূত্র

কেন বড় পার্থক্য

সম্পর্কিত প্রশ্নগুলি

সাধারণ আর উদাহরণ