একই বিতরণ থেকে দুটি নমুনা আঁকলে নন-প্যারামেট্রিক পরীক্ষা


19

আমি এই অনুমানটি পরীক্ষা করতে চাই যে নমুনাগুলির বিতরণ বা জনসংখ্যার বিষয়ে কোনও অনুমান না করেই একই জনসংখ্যা থেকে দুটি নমুনা আঁকা। আমি এই কিভাবে করা উচিত?

উইকিপিডিয়া থেকে আমার ধারণাটি হ'ল মান হুইটনি ইউ পরীক্ষাটি উপযুক্ত হওয়া উচিত, তবে অনুশীলনে এটি আমার পক্ষে কাজ করবে বলে মনে হয় না।

সংক্ষিপ্ততার জন্য আমি দুটি নমুনা (ক, খ) দিয়ে একটি ডেটাসেট তৈরি করেছি যা বড় (এন = 10000) এবং অ-সাধারণ (বিমোডাল) দুটি জনসংখ্যা থেকে আঁকা, একই (একই গড়), তবে পৃথক (মানক বিচ্যুতি) "হাম্পস।") এর আশেপাশে আমি একটি পরীক্ষা খুঁজছি যা সনাক্ত করবে যে এই নমুনাগুলি একই জনগোষ্ঠীর নয়।

হিস্টোগ্রাম দর্শন:

বিমোডাল নমুনা

আর কোড:

a <- tibble(group = "a",
            n = c(rnorm(1e4, mean=50, sd=10),
                  rnorm(1e4, mean=100, sd=10)))
b <- tibble(group = "b",
            n = c(rnorm(1e4, mean=50, sd=3),
                  rnorm(1e4, mean=100, sd=3)))
ggplot(rbind(a,b), aes(x=n, fill=group)) +
  geom_histogram(position='dodge', bins=100)

এখানে মান হুইটনি পরীক্ষা আশ্চর্যরূপে (?) নকল অনুমানটিকে একই জনসংখ্যার থেকে প্রত্যাখ্যান করতে ব্যর্থ হয়েছে:

> wilcox.test(n ~ group, rbind(a,b))

        Wilcoxon rank sum test with continuity correction

data:  n by group
W = 199990000, p-value = 0.9932
alternative hypothesis: true location shift is not equal to 0

সাহায্য করুন! বিভিন্ন বিতরণ সনাক্ত করার জন্য আমি কীভাবে কোড আপডেট করব? (আমি বিশেষত জেনেরিক র্যান্ডমাইজেশন / উপলব্ধ হলে পুনরায় মডেলিংয়ের উপর ভিত্তি করে একটি পদ্ধতি চাই))

সম্পাদনা করুন:

উত্তরের জন্য সবাইকে ধন্যবাদ! আমি উচ্ছ্বসিতভাবে কোলমোগোরভ – স্মিমনভ সম্পর্কে আরও শিখছি যা আমার উদ্দেশ্যগুলির পক্ষে খুব উপযুক্ত বলে মনে হচ্ছে।

আমি বুঝতে পারি যে কেএস পরীক্ষাটি দুটি নমুনার এই ইসিডিএফ তুলনা করছে:

ECDFs

এখানে আমি দৃশ্যত তিনটি আকর্ষণীয় বৈশিষ্ট্য দেখতে পাচ্ছি। (1) নমুনা বিভিন্ন বিতরণ থেকে। (২) ক নির্দিষ্ট বিন্দুতে স্পষ্টত বি এর উপরে। (৩) ক অন্যান্য নির্দিষ্ট পয়েন্টে স্পষ্টভাবে খ এর নীচে is

কেএস পরীক্ষা এই বৈশিষ্ট্যগুলির প্রতিটি অনুমান-পরীক্ষা করতে সক্ষম বলে মনে হচ্ছে:

> ks.test(a$n, b$n)

        Two-sample Kolmogorov-Smirnov test

data:  a$n and b$n
D = 0.1364, p-value < 2.2e-16
alternative hypothesis: two-sided

> ks.test(a$n, b$n, alternative="greater")

        Two-sample Kolmogorov-Smirnov test

data:  a$n and b$n
D^+ = 0.1364, p-value < 2.2e-16
alternative hypothesis: the CDF of x lies above that of y

> ks.test(a$n, b$n, alternative="less")

        Two-sample Kolmogorov-Smirnov test

data:  a$n and b$n
D^- = 0.1322, p-value < 2.2e-16
alternative hypothesis: the CDF of x lies below that of y

আসলেই ঝরঝরে! আমি এই বৈশিষ্ট্যগুলির প্রতিটি সম্পর্কে আমার ব্যবহারিক আগ্রহ এবং তাই এটি দুর্দান্ত যে কেএস পরীক্ষা তাদের প্রতিটি পরীক্ষা করতে পারে।


এটি খুব অবাক হওয়ার মতো বিষয় নয় যে মেগাওয়াট প্রত্যাখ্যান করে না। একতরফা পরীক্ষার জন্য এটি পরীক্ষিত হয় যে জনসংযোগ (এ> বি) <0.05 যেখানে a এবং b এলোমেলোভাবে আপনার জনসংখ্যার সদস্য নির্বাচিত কিনা তা পরীক্ষা করে।
mdewey

1
মান-হুইটনি সম্পর্কিত অনুমান কখনও কখনও দুটি গ্রুপের "অবস্থান", বা নিয়মিত পদ্ধতিতে স্টোকাস্টিক পার্থক্যের ধারায় কিছু উদ্বেগ হিসাবে দেখা যায়। আপনার ডেটার ক্ষেত্রে, উভয় গ্রুপ 75 টির মতো সমলয়ভাবে বিতরণ করা হয়েছে, সুতরাং মেগাওয়াট অবশ্যই কোনও পার্থক্য খুঁজে না পাওয়া উচিত।
সাল মঙ্গিয়াফিকো

4
পরীক্ষার অনুমানের বিষয়ে আমরা যখন পরিষ্কার না থাকি তখন আমরা যে বিভ্রান্তি বপন করি তার এটি একটি উত্তম উদাহরণ। দুর্ভাগ্যবশত, মানুষ ব্যবহার করতে শেখানো হয় T সত্যিই চিন্তা যে এই পরীক্ষার দুই তুলনা ছাড়া দুই দলের তুলনা করতে, -test মানে , দুটি তুলনা করার জন্য একটি মধ্যমা পরীক্ষা আছে যেহেতু মধ্যমা , মন-হুইটনি যে কিছু আর তুলনা, অন্যান্য শতকরা তুলনা করতে সমাংশক রিগ্রেশন , বিতরণগুলির সাথে তুলনা করার জন্য পরীক্ষাগুলি, কলমোগোরভ-স্মারনভ এবং আরও অনেকগুলি ... আমরা মাঝে মাঝে কেবলই বলে থাকি যে আমরা আসলে কোন অনুমানটি পরীক্ষা করতে চাই তা স্পষ্ট না করেই আমরা দুটি "জনসংখ্যার" তুলনা করতে চাই।
সাল মঙ্গিয়াফিকো

প্রতিবিম্বটিতে এটি মনে হয় এমডব্লু পরীক্ষার উইকিপিডিয়া পৃষ্ঠায় অনুমানটি খুব স্পষ্টভাবে বলা হয়েছে এবং এই অনুমানটিও বোঝায় যে নমুনাগুলি একই বন্টন থেকে এসেছে think প্রকৃতপক্ষে, একই কেন্দ্রীয় পয়েন্টের চারপাশে প্রতিসাম্যযুক্ত দুটি ভিন্ন বিতরণকে তুলনা করার সময় সমস্যাটি স্পষ্ট হয়ে ওঠে।
লুক গ্যারি

উত্তর:


17

কোলমোগোরভ-স্মারনভ পরীক্ষা এটি করার সর্বাধিক সাধারণ উপায়, তবে আরও কিছু বিকল্প রয়েছে।

পরীক্ষাগুলি বংশগতিমূলক বন্টন ফাংশনের উপর ভিত্তি করে। প্রাথমিক পদ্ধতিটি হ'ল:

  • এলপি
  • নাল অনুমানের অধীনে পরীক্ষার পরিসংখ্যানগুলির বিতরণটি বের করুন যা নমুনাগুলি একই বন্টন থেকে আসে (ভাগ্যক্রমে লোকেরা ইতিমধ্যে এটি সবচেয়ে সাধারণ দূরত্বের জন্য করেছে!)
  • αα%

এল

ks.test(a,b)

পি

এল2dgofcvm.test()

সম্পাদনা করুন:

ধরুন আমাদের কাছে আকারের নমুনা রয়েছেএনমি , যা আমরা আমাদের অনুমানের পরীক্ষাটি প্রয়োগ করতে চাই।

এটি একটি নমুনা ধরণের পদ্ধতিতে রূপান্তর করতে, আমরা নিম্নলিখিতটি করতে পারি:

  1. এনমিএনমি
  2. নমুনার জন্য আপনার দূরত্বের মেট্রিক গণনা করুন। কেএস পরীক্ষার জন্য, এটি কেবল সর্বোচ্চ। অভিজ্ঞতামূলক সিডিএফগুলির মধ্যে পার্থক্য।
  3. ফলাফল সংরক্ষণ করুন এবং 1 ধাপে ফিরে যান।

অবশেষে আপনি নাল অনুমানের অধীনে পরীক্ষার পরিসংখ্যান বিতরণ থেকে প্রচুর নমুনা তৈরি করবেন, যার কোয়ান্টাইলগুলি আপনি যে অনুচ্ছেদের যে স্তরে চান তা আপনার অনুমান পরীক্ষাটি পরিচালনা করতে ব্যবহার করতে পারেন। কেএস পরীক্ষার পরিসংখ্যানগুলির জন্য, এই বিতরণকে বলা হয় কোলমোগোরভ বিতরণ।

নোট করুন যে কেএস পরীক্ষার জন্য, এটি কেবল গণনামূলক প্রচেষ্টার অপচয় হ'ল কারণ কোয়ান্টাইলগুলি তাত্ত্বিকভাবে খুব সাধারণভাবে চিহ্নিত করা হয়, তবে পদ্ধতিটি সাধারণত কোনও অনুমানের পরীক্ষার ক্ষেত্রে প্রযোজ্য।


ধন্যবাদ! কোলমোগোরভ-স্মারনভ পরীক্ষা সত্যই এই নমুনাগুলি একই জনসংখ্যার নাল অনুমানকে প্রত্যাখ্যান করে। এবং স্বজ্ঞাতভাবে ইসিডিএফগুলির সাথে তুলনা করা বোধগম্য কারণ কারণ আমি হিস্টোগ্রামের সাথে দৃশ্যত যা করছি তা কম-বেশি। প্রশ্ন: ধরুন যে আর এর মতো কোনও সরঞ্জাম ছাড়াই স্ক্র্যাচ থেকে আমার এই পরীক্ষাটি প্রয়োগ করা দরকার ছিল? এমন কোনও সহজ পদ্ধতি কি যথেষ্ট? (সম্ভবত বুটস্ট্র্যাপিংয়ের উপর ভিত্তি করে?) আমি জিজ্ঞাসা করি কারণ আমার ব্যাকগ্রাউন্ডটি কম্পিউটার প্রোগ্রামিং এবং আমি সিমুলেশন-ভিত্তিক পদ্ধতিগুলি সত্যিই বুঝতে খুব সহজ পাই।
লুক গ্যারি

আপনার এলোমেলোকরণ বা ক্রমবর্ধনের দিকে নজর দেওয়া উচিত। আমি এগুলি নন-নরমাল টেস্টের জন্য পছন্দ করি। তারা পরিসংখ্যানের চেয়ে সিমুলেশন হওয়ার আপনার মানদণ্ডগুলিও পূরণ করে
RTbecard

2
@ জামেসএডাম ক্যাম্পবেল আপনি কিছুটা আলাদা উত্তর দিয়ে প্রসারিত করতে পারেন?
উইল

1
এল

1
আমি তাতে কোনও সমস্যা দেখছি না। আপনি যদি এই জিনিসগুলির কিছু চেষ্টা করেন তবে ফলাফলগুলি দেখতে আগ্রহী হব! সিআই পদ্ধতির এবং স্ট্রেস আপ কেএস পরীক্ষা সর্বদা আপনাকে একই উত্তর দেয় কিনা তা দেখতে শীতল লাগবে। আমি তাদের সন্দেহ করি :)
হবে
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.