আনোভা এবং কৃস্কাল-ওয়ালিস পরীক্ষার মধ্যে পার্থক্য


20

আমি আর শিখছি এবং বৈকল্পিক বিশ্লেষণ নিয়ে পরীক্ষা-নিরীক্ষা করছি। আমি দুজনেই চালিয়ে যাচ্ছি

kruskal.test(depVar ~ indepVar, data=df)

এবং

anova(lm(depVar ~ indepVar, data=dF))

এই দুটি পরীক্ষার মধ্যে কি ব্যবহারিক পার্থক্য রয়েছে? আমার বোধগম্যতা হল উভয়ই নাল অনুমানটি মূল্যায়ন করে যে জনগোষ্ঠীর একই গড় রয়েছে।

উত্তর:


28

অনুমান এবং পরীক্ষা করা অনুমানের মধ্যে পার্থক্য রয়েছে।

আনোভা (এবং টি-পরীক্ষা) স্পষ্টতই মূল্যবোধের মাধ্যমের সমতার একটি পরীক্ষা। কুরস্কাল-ওয়ালিস (এবং মান-হুইটনি) প্রযুক্তিগতভাবে গড় রেকের তুলনা হিসাবে দেখা যেতে পারে ।

সুতরাং, মূল মূল্যবোধের ক্ষেত্রে, ক্রুশকাল-ওয়ালিস অর্থের তুলনার তুলনায় আরও সাধারণ : এটি পরীক্ষা করে যে প্রতিটি গ্রুপের একটি এলোমেলো পর্যবেক্ষণ অন্য গ্রুপের থেকে এলোমেলো পর্যবেক্ষণের উপরে বা নীচে সমান সম্ভাবনা আছে কিনা। প্রকৃত ডেটা পরিমাণ যা তুলনা করে তা বোঝায় যে না পার্থক্য বা মিডিয়েনগুলির মধ্যে পার্থক্য নয়, (দুটি নমুনার ক্ষেত্রে) এটি আসলে সমস্ত জুটিযুক্ত পার্থক্যের মাঝারি - নমুনা হজস-লেহম্যানের মধ্যে পার্থক্য।

তবে আপনি যদি কিছু নিয়ন্ত্রিত অনুমান করা বেছে নেন, তবে ক্রুশকাল-ওয়ালিসকে জনসংখ্যার সমতা, পাশাপাশি কোয়ান্টাইলগুলি (উদাহরণস্বরূপ মধ্যক), এবং প্রকৃতপক্ষে বিভিন্ন পদক্ষেপের বিভিন্ন ধরণের পরীক্ষা হিসাবে দেখা যেতে পারে। এটি হ'ল, যদি আপনি ধরে নেন যে নাল অনুমানের অধীনে গ্রুপ-বিতরণগুলি একই, এবং বিকল্পের অধীনে, কেবলমাত্র পরিবর্তনটি একটি বন্টনীয় শিফট (তথাকথিত " লোকেশন-শিফ্ট বিকল্প) ") হয় তবে এটিও একটি পরীক্ষা জনসংখ্যার সাম্যতার অর্থ (এবং, একই সাথে, মধ্যম, নিম্ন চতুর্ভুজ ইত্যাদি)।

[আপনি যদি এই অনুমানটি করেন তবে আপনি আনোভা-র সাথে যেমন করতে পারেন তেমন আপেক্ষিক শিফটগুলির জন্য অনুমান এবং অন্তরগুলিও পেতে পারেন। ঠিক আছে, এই ধারণাটি ছাড়াই অন্তরগুলি পাওয়াও সম্ভব তবে তাদের ব্যাখ্যা করা আরও কঠিন]]

আপনি যদি এখানে উত্তরের দিকে লক্ষ্য করেন, বিশেষত শেষের দিকে, এটি টি-টেস্ট এবং উইলকক্সন-মান-হুইটনিয়ের মধ্যে তুলনা নিয়ে আলোচনা করে, যা (কমপক্ষে দুই-লেজযুক্ত পরীক্ষা করার সময়) আনোভা এবং কৃসকল-ওয়ালিসের সমতুল্য মাত্র দুটি নমুনার তুলনায় প্রয়োগ; এটি আরও কিছুটা বিশদ দেয় এবং সেই আলোচনার বেশিরভাগ অংশ ক্রুশকাল-ওয়ালিস বনাম আনোভাতে বহন করে।

আপনি ব্যবহারিক পার্থক্য বলতে কী বোঝাতে চাইছেন তা সম্পূর্ণরূপে পরিষ্কার নয়। আপনি এগুলিকে সাধারণভাবে একইভাবে ব্যবহার করেন। উভয় সেট অনুমান প্রয়োগ করলে তারা সাধারণত প্রায় একই ধরণের ফলাফল দেয় tend তবে কিছু পরিস্থিতিতে তারা অবশ্যই মোটামুটি আলাদা পি-মান দিতে পারে।

সম্পাদনা করুন: এমনকি ছোট নমুনাগুলিতেও আনুপাতিকরণের মিলের উদাহরণ এখানে - তিনটি গ্রুপের মধ্যে অবস্থান-স্থানান্তর (প্রথমটির সাথে দ্বিতীয় এবং তৃতীয় প্রত্যেকটি) সাধারণ বিতরণ (ছোট নমুনার আকার সহ) এর নমুনা প্রাপ্তের জন্য এখানে যৌথ গ্রহণযোগ্যতা অঞ্চল একটি নির্দিষ্ট ডেটা সেট করার জন্য, 5% স্তরে:

কৃস্কাল-ওয়ালিস এবং আনোভাতে অবস্থান-পার্থক্যের জন্য স্বীকৃতি অঞ্চল

বেশ কয়েকটি আকর্ষণীয় বৈশিষ্ট্যগুলি চিহ্নিত করা যায় - কেয়াডব্লুটির ক্ষেত্রে সামান্য বৃহত্তর গ্রহণযোগ্যতা অঞ্চল, এর সীমানাটি উল্লম্ব, অনুভূমিক এবং তির্যক সরল রেখার অংশ নিয়ে গঠিত (কেন এটি নির্ধারণ করা কঠিন নয়)। দুটি অঞ্চল আমাদের এখানে আগ্রহের পরামিতিগুলি সম্পর্কে খুব অনুরূপ জিনিসগুলি বলে।


2
+1 টি। আমি যেখানে প্রয়োজন বলে মনে করেছি সেখানে জোর যুক্ত করার জন্য আমি এটি সম্পাদনা করার সাহস করেছি। আপনি সম্মত হন বা না করেন দয়া করে এখনই দেখুন।
ttnphns

@ttnphns সম্পাদনার জন্য ধন্যবাদ। আপনি যে কিছু বদলেছিলেন সেগুলির কয়েকটি সেখানে থাকার জন্য কিছু বিশেষ কারণ রয়েছে, তাই আমি মূল কিছুটি সম্পাদনা করতে পারি However তবে, আমার আগে এটি যেমন লেখা হয়েছিল কেন এটি সম্ভবত পরিষ্কার করা উচিত । তবে প্রথমে আমি যতটা পারি আপনার পরিবর্তনগুলি যতটা রাখতে পারি তার সম্পর্কে ভাল করে চিন্তা করতে চাই।
গ্লেন_বি -রিনস্টেট মনিকা

4

হ্যা এখানে. anovaযখন একটি স্থিতিমাপ পন্থা kruskal.testএকটি অ স্থিতিমাপ পন্থা। সুতরাং kruskal.testকোনও বিতরণের অনুমানের প্রয়োজন নেই।
ব্যবহারিক দৃষ্টিকোণ থেকে, যখন আপনার ডেটা স্কাই করা হয়, তবে anovaএটি ব্যবহারের জন্য ভাল পন্থা হবে না। উদাহরণস্বরূপ এই প্রশ্নটি দেখুন ।


4
আমি বলব যে ক্রুশকাল-ওয়ালিস আনোভা প্যারাম্যাট্রিক আনোয়ার তুলনায় বিতরণ সম্পর্কিত স্বচ্ছ অনুমান করে: প্রতিটি গ্রুপের পর্যবেক্ষণগুলি একই আকারের জনগোষ্ঠী থেকে আসে । হিটারোস্কেস্টাস্টিটি বা উচ্চ স্কিউ বিতরণ traditionalতিহ্যগত পরীক্ষাগুলির মতোই সমস্যাযুক্ত থাকে।
chl

2
কিভাবে, @ সিএল? রেখাগুলি স্কিউ দ্বারা পরিবর্তিত হয় না এবং কেডাব্লু র‌্যাঙ্ক ভিত্তিক। আমি কী মিস করছি?
পিটার ফ্লুম - মনিকা

6
3/π

@ chl দ্য এইচ0অনুমানটি বিতরণের সাম্যতা, সুতরাং অভিন্ন আকৃতি অনুমানটি কেবল পাওয়ারের সাথে সম্পর্কিত, তাই না?
স্টাফেন লরেন্ট

1
@ স্টাফেনলরেন্ট যদি আকারগুলি অভিন্ন না হয় তবে এটি খারাপ অনুক্রমের কারণ হতে পারে। আমার উদাহরণটি এখানে দেখুন
ফ্লাস্ক

3

আমি যতদূর জানি (তবে দয়া করে যদি আমি ভুল কারণ আমি নিশ্চিত নই তবে আমাকে সংশোধন করুন), ক্রুশকল-ওয়ালিস পরীক্ষাটি একই আকার এবং একই ছড়িয়ে পড়া দুটি বিতরণের মধ্যে পার্থক্য সনাক্ত করার জন্য তৈরি করা হয়েছিল, তা হ'ল , একটি পৃথক দ্বারা অন্য অনুবাদ দ্বারা প্রাপ্ত করা হয় Δ, যেমন: এখানে চিত্র বর্ণনা লিখুন

চল ডাকি (*)এই অনুমান। কে ডাব্লু পরীক্ষা নাল অনুমানের পরীক্ষা করে testsএইচ0:{Δ=0} বনাম এইচ1:{Δ0}। তবে কেডব্লিউ পরীক্ষাটি অনুমান ছাড়াই "বৈধ"(*) : এটির লক্ষণ স্তর (প্রত্যাখ্যান করার সম্ভাবনা) এইচ0 অধীনে এইচ0) বৈধ কারণ (*) স্পষ্টতই এর অধীনে পরিপূর্ণ হয় এইচ0:{বিতরণ সমান}

তবে কেডব্লিউ পরীক্ষাটি "অদক্ষ" যদি হয় (*) এটি ধরে রাখে না: এটি কেবল সনাক্ত করার জন্য একটি ভাল শক্তি রাখার ইচ্ছা করে Δ>0, এবং তারপরে পরীক্ষার পরিসংখ্যানগুলি যদি এমন কিছু না থাকে তবে দুটি বিতরণের মধ্যে পার্থক্য প্রতিফলিত করা উপযুক্ত নয় Δ

নিম্নলিখিত উদাহরণ বিবেচনা করুন। দুটি নমুনাএক্স এবং Y আকারের এন=1000দুটি ভিন্ন ভিন্ন বিতরণ থেকে উত্পন্ন হয় তবে একই গড় রয়েছে। তারপরে কেডব্লিউ প্রত্যাখ্যান করতে ব্যর্থএইচ0

set.seed(666)
n <- 1000
x <- rnorm(n)
y <- (2*rbinom(n,1,1/2)-1)*rnorm(n,3)
plot(density(x, from=min(y), to=max(y)))
lines(density(y), col="blue")

এখানে চিত্র বর্ণনা লিখুন

> kruskal.test(list(x,y))

    Kruskal-Wallis rank sum test

data:  list(x, y)
Kruskal-Wallis chi-squared = 2.482, df = 1, p-value = 0.1152

আমি প্রথমদিকে যেমন দাবি করেছি, কেডাব্লুয়ের সুনির্দিষ্ট নির্মাণ সম্পর্কে আমি নিশ্চিত নই। হতে পারে আমার উত্তরটি আরও একটি ননপ্যারমেট্রিক টেস্টের জন্য আরও সঠিক (মান-হুইটনি? ..), তবে পদ্ধতির অনুরূপ হওয়া উচিত।


1
Kruskal-Wallis test is constructed in order to detect a difference between two distributions having the same shape and the same dispersionগ্লেনের উত্তরে যেমনটি মন্তব্য করা হয়েছে এবং এই সাইটের আরও অনেক জায়গায় মন্তব্য করা হয়েছে, এটি সত্য তবে পরীক্ষাটি কী করে তার সংকীর্ণ পড়া। same shape/dispersionআসলে একটি অন্তর্নিহিত নয় তবে এটি একটি অতিরিক্ত অনুমান যা কিছু ক্ষেত্রে ব্যবহৃত হয় এবং অন্যান্য পরিস্থিতিতে ব্যবহৃত হয় না।
ttnphns

পিএস আপনার দ্বিতীয় উদাহরণটি কেডব্লিউ পরীক্ষার বিরোধিতা বা খণ্ডন করে না। পরীক্ষার এইচ 0 নয় distributions are equal , এটি ভাবতে ভুল হয়। এইচ 0 কেবল এটিই, অলঙ্কৃতভাবে, "মাধ্যাকর্ষণ ঘনীভবন" দুটি পয়েন্ট একে অপরের থেকে বিচ্যুত হয় না।
ttnphns

@ttnphns আমি আপনাকে বিশ্বাস করি, আমি জানি না। তবে সাধারণত আমরা বিবেচনা করিএইচ0সমতা হিসাবে (যেমন উইকিপিডিয়া নিবন্ধ দেখুন)।
স্টাফেন লরেন্ট

1
আমি শুধু বলি এটি একটি সাধারণ বিশ্বাস। সাহায্যে মতে krusal.test()আর এ,এইচ0বিতরণের অবস্থানের পরামিতিগুলির সমতা। অনুশীলনে আমি মনে করি আমরা প্রায়শই বিতরণগুলির মধ্যে পার্থক্য নির্ধারণ করতে কেডব্লু ব্যবহার করি। সুতরাং আমরা একই আকৃতি ধরে নিতে পারি (আমরা গাউসিয়ান আনোভা ক্ষেত্রে যেমন করি), এবং কেডাব্লু প্রয়োগ করি, এটি উপলব্ধি করে।
স্টাফেন লরেন্ট

1
হ্যাঁ। the equality of the location parameters of the distributionসঠিক সূত্রটি (যদিও "অবস্থান" কেবলমাত্র একটি গড় বা মধ্যমা হিসাবে বিবেচনা করা উচিত নয়, সাধারণ ক্ষেত্রে)। আপনি যদি একই আকার ধরে থাকেন তবে স্বাভাবিকভাবেই এই একই H0 "অভিন্ন ডিস্ট্রিবিউশন" হয়ে যায়।
ttnphns

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.