কোলমোগোরভ-স্মারনভ পরীক্ষার একাধিক নমুনা সংস্করণ বা বিকল্প আছে কি?


12

আমি ছয় জোড়া প্লটের গাছের আকার বিতরণের সাথে তুলনা করছি যেখানে একটি প্লট একটি চিকিত্সা পেয়েছে এবং অন্যটি নিয়ন্ত্রণ পেয়েছিল। প্লট প্রতিটি জোড়া একটি Kolmogorov-Smirnov পরীক্ষা ব্যবহার আমি যে এটি থেকে রেঞ্জ 0.0003707 করার 0.75 । প্রতিলিপিগুলির সাথে একসাথে ডিলের জন্য কি কোনও উপযুক্ত পদ্ধতি রয়েছে যেমন কেএস পরীক্ষার বহু-নমুনা বর্ধন, বা কোনও উপযুক্ত ফলোআপ পরীক্ষা আছে? অথবা আমি কেবল " জোড়া জোড় প্লটের মধ্যে আকারের বিতরণ লক্ষণীয়ভাবে ( পি < 0.05 ) এবং এক জোড়া প্লটের মধ্যে প্রান্তিকভাবে ( পি = 0.59 ) এর মত কিছু শেষ করব "।পি0.00037070.75(পি<0.05পি=0.59


2
এই বিতরণগুলির সাথে আপনি কী তুলনা করতে চান, যেগুলি কেন্দ্রীয় প্রবণতায় আলাদা বা তাদের আকারে পৃথক? আমি কোনও বিতরণের আকার / প্রকৃতি সম্পর্কে কেএসকে বেশি ভাবি, তবে ফ্রেডম্যান পরীক্ষার মতো কিছু নির্ধারণ করতে পারে যে নমুনাগুলি কেন্দ্রীয় প্রবণতায় আলাদা fer
গুং - মনিকা পুনরায়

উত্তর:


13

R2


5
ঠিক আছে, বাহ্ম এবং হর্নিকের "সুন্দর" কাগজের অসুবিধাটি হ'ল আমি যতদূর বলতে পারি সেখানে প্রকাশ্যে উপলভ্য কোনও বাস্তবায়ন নেই। গণিতগুলি যথেষ্ট জটিল যে আপনি এটি নিজে প্রয়োগ করতে পছন্দ করবেন না। আমি লেখকদের মেল করেছিলাম এবং তাদের জিজ্ঞাসা করেছি কিন্তু তারা কোনও উত্তর দেয়নি। মনে রাখবেন যে হর্নিক আর কোর ডেভেলপারদের গোষ্ঠীর সদস্য ... যদি কোনও বাস্তবায়ন সম্পর্কে কেউ জানে, pls এখানে একটি লিঙ্ক পোস্ট করুন!
ল্যারিক্স ডিসিডুয়া

8

একটি আর প্যাকেজ কেসাম্পল রয়েছে যা আপনাকে অন্যান্য জিনিসের মধ্যে একটি অ-প্যারাম্যাট্রিক কে-নমুনা অ্যান্ডারসন-ডার্লিং পরীক্ষা দেয়। নাল হাইপোথিসিসটি হ'ল সমস্ত কে নমুনা একই বিতরণ থেকে এসেছিল যা নির্দিষ্ট করার দরকার নেই। হয়তো আপনি এটি ব্যবহার করতে পারেন।

সাধারণ এবং গামা-বিতরণকৃত নমুনাগুলির তুলনা করার জন্য ছোট উদাহরণ যেমন আকারের এবং ভিন্নতা থাকে:

library("kSamples")
set.seed(142)
samp.num <- 100
alpha <- 2.0; theta <- 3.0  # Gamma parameters shape and scale, using Wikipedia notation
gam.mean <- alpha * theta # mean of the Gamma
gam.sd <- sqrt(alpha) * theta # S.D. of the Gamma
norm.data <- rnorm(samp.num, mean=gam.mean, sd=gam.sd)  # Normal with the same mean and SD as the Gamma
gamma.data <- rgamma(samp.num, shape=alpha, scale=theta)
norm.data2 <- rnorm(samp.num, mean=gam.mean, sd=gam.sd)
norm.data3 <- rnorm(samp.num, mean=gam.mean, sd=gam.sd)
ad.same <- ad.test(norm.data,norm.data2,norm.data3) # "not significant, p ~ 0.459"
ad.diff <- ad.test(gamma.data,norm.data2,norm.data3) # "significant, p ~ 0.00066"

4

কয়েকটি পদ্ধতির:

পেয়ারওয়াইজ পি-মানগুলি ব্যবহার করুন তবে বন ফেরোনি বা ফলস ডিসকোভারি রেট অ্যাডজাস্টেন্সগুলির মতো কিছু ব্যবহার করে একাধিক তুলনার জন্য তাদের সামঞ্জস্য করুন (প্রথমটি সম্ভবত রক্ষণশীলের চেয়ে কিছুটা বেশি হবে)। তারপরে আপনি আত্মবিশ্বাসের সাথে বলতে পারেন যে যেগুলি এখনও উল্লেখযোগ্যভাবে আলাদা তা সম্ভবত একাধিক পরীক্ষার কারণে নয়।

আপনি যে কোনও ডিস্ট্রিবিউশনের মধ্যে সর্বাধিক দূরত্ব আবিষ্কার করে, অর্থাত্ সমস্ত ইমিরিকাল সিডিএফ-এর প্লট করতে পারেন এবং নীচের লাইন থেকে শীর্ষতম লাইন পর্যন্ত বৃহত্তম দূরত্ব খুঁজে পেতে পারেন, বা সম্ভবত গড় দূরত্ব বা অন্য কোনও অর্থবহ পদক্ষেপ খুঁজে পেতে পারেন of পরিমাপ করা. তারপরে আপনি ক্রমিটেশন পরীক্ষা করে তা সার্থক কিনা তা আবিষ্কার করতে পারেন: সমস্ত ডেটাটিকে 1 টি বড় বিনে গ্রুপ করুন, তারপরে এলোমেলোভাবে আপনার মূল গ্রুপগুলির মতো একই নমুনা মাপের সাথে গ্রুপগুলিতে বিভক্ত করুন, অনুমোদিত ডেটাতে স্ট্যাটটি পুনরায় সংশোধন করুন এবং প্রক্রিয়াটি পুনরাবৃত্তি করুন বহুবার (999 বা তাই)। তারপরে দেখুন আপনার আসল ডেটা কীভাবে অনুমতিপ্রাপ্ত ডেটা সেটগুলির সাথে তুলনা করে। যদি অনুমোদিত ডেটাগুলির পরিসংখ্যানগুলি অনুমতিপ্রাপ্তদের মাঝে পড়ে যায় তবে কোনও উল্লেখযোগ্য পার্থক্য পাওয়া যায় না, তবে এটি প্রান্তে থাকলে, বা অনুমতিপ্রাপ্তদের যে কোনও একটি ছাড়িয়ে তারপরে সেখানে উল্লেখযোগ্য কিছু চলছে (তবে এটি আপনাকে আলাদা করে বলে দেয় না)। আপনার সম্ভবত এটি সিমুলেটেড ডেটা দিয়ে চেষ্টা করে দেখা উচিত যেখানে আপনি জানেন যে একটি পার্থক্য রয়েছে যা আকর্ষণীয় হওয়ার পক্ষে যথেষ্ট যথেষ্ট কেবল আকর্ষণীয় পার্থক্যগুলি খুঁজে পেতে এই পরীক্ষার শক্তি পরীক্ষা করতে check

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.