আমার ডেটা কোনও তাত্পর্যপূর্ণ বিতরণ ফিট করে কিনা তা আমি কীভাবে পরীক্ষা করব?


22

আমার ডেটা যেমন বেতনটি আর-এ অবিচ্ছিন্ন তাত্পর্যপূর্ণ বিতরণ থেকে হয় তা আমি কীভাবে পরীক্ষা করতে পারি?

এখানে আমার নমুনার হিস্টগ্রাম রয়েছে:

এখানে চিত্র বর্ণনা লিখুন

। যে কোন সাহায্য সাদরে গৃহীত হবে!



ধারাবাহিক। আমি আশ্চর্য হই যে এটি পরীক্ষা করার জন্য আর-তে কোনও পরীক্ষা আছে কিনা
stjudent

1
স্বাগত. ফাংশন জন্য চেহারা fitdistrআর এটা adjusts সম্ভাব্যতা ঘনত্ব ফাংশন (PDF গুলি) সর্বাধিক সম্ভাবনা প্রাক্কলন (MLE) মেথড উপর ভিত্তি করে। এই সাইটের পদগুলিতে পিডিএফ, ফিটডিসিটার, ম্লে এবং অনুরূপ প্রশ্নগুলি উপস্থিত হয়ে অনুসন্ধান করুন। মনে রাখবেন যে এর মতো প্রশ্নগুলির জন্য ভাল উত্তর সংগ্রহের জন্য প্রায় পুনরুত্পাদনযোগ্য উদাহরণ প্রয়োজন । এছাড়াও, যদি প্রশ্নটি প্রোগ্রামিং সম্পর্কে নিখুঁতভাবে না হয় (তবে এটি এটি অফ-টপিক হিসাবে ধরে রাখা হতে পারে) সহায়তা করে।
আন্দ্রে সিলভা

8
একটি সূচকীয় বিতরণ প্লটিং অবস্থান) এর বিপরীতে একটি সরল রেখা হিসাবে প্লট করবে যেখানে প্লট করার অবস্থানটি (র‌্যাঙ্ক-Ln(1--একটি)/(এন-2একটি+ +1) , সর্বনিম্ন মানের জন্য র‌্যাঙ্ক , নমুনা আকার এবং জন্য জনপ্রিয় পছন্দগুলি অন্তর্ভুক্ত । এটি একটি অনানুষ্ঠানিক পরীক্ষা দেয় যা কোনও আনুষ্ঠানিক পরীক্ষার চেয়ে বেশি বা কার্যকর হতে পারে। 1এনএকটি1/2
নিক কক্স

@ বারকান তার পোস্টে কোয়ান্টাইল প্লট ধারণাটি তৈরি করেছে developed
নিক কক্স

উত্তর:


29

আমি একমাত্র বিতরণ প্যারামিটার rateব্যবহার করে প্রথমে এটি অনুমান করে করব fitdistr। বিতরণটি মানানসই বা না তা এটি আপনাকে জানায় না, সুতরাং আপনাকে অবশ্যই ফিট টেস্টের সদর্থকতা ব্যবহার করতে হবে । এর জন্য, আপনি ব্যবহার করতে পারেন ks.test:

require(vcd)
require(MASS)

# data generation
ex <- rexp(10000, rate = 1.85) # generate some exponential distribution
control <- abs(rnorm(10000)) # generate some other distribution

# estimate the parameters
fit1 <- fitdistr(ex, "exponential") 
fit2 <- fitdistr(control, "exponential")

# goodness of fit test
ks.test(ex, "pexp", fit1$estimate) # p-value > 0.05 -> distribution not refused
ks.test(control, "pexp", fit2$estimate) #  significant p-value -> distribution refused

# plot a graph
hist(ex, freq = FALSE, breaks = 100, xlim = c(0, quantile(ex, 0.99)))
curve(dexp(x, rate = fit1$estimate), from = 0, col = "red", add = TRUE)

এখানে চিত্র বর্ণনা লিখুন

আমার ব্যক্তিগত অভিজ্ঞতা থেকে (যদিও আমি এটি আনুষ্ঠানিকভাবে কোথাও কোথাও পাই নি, দয়া করে আমাকে নিশ্চিত করুন বা সংশোধন করুন), ks.testতবে আপনি প্রথমে প্যারামিটারের অনুমান সরবরাহ করলেই চলবে। যেমন আপনি যেমন এটি প্যারামিটারগুলি স্বয়ংক্রিয়ভাবে অনুমান করতে দিতে পারবেন না goodfit। এজন্য আপনার এই দুটি পদক্ষেপের প্রক্রিয়াটি দরকার fitdistr

আরও তথ্যের জন্য রিচির দুর্দান্ত গাইড অনুসরণ করুন : আর এর সাথে ফিটিং ডিস্ট্রিবিউটস


2
+1 টি। এই ধরনের পরিস্থিতিতে ফিটের ধার্মিকতা পরীক্ষা করার জন্য কি কেএসটেস্ট সেরা পরীক্ষা? আমি মনে করি আপনি আমার একটি প্রশ্নেরও উত্তর দিয়েছেন ।
আন্দ্রে সিলভা

4
মাত্র একটি মাথা আপ, আপনি যদি ডেটা থেকেই প্যারামিটারগুলি নির্ধারণ করছেন তবে আপনার সাবধান হওয়া উচিত। সেক্ষেত্রে অ্যান্ডারসন ডার্লিংয়ের মতো একটি পরীক্ষা সেরা হতে পারে, কারণ এটি এই ধরনের পরিস্থিতিতে শক্তিশালী।
জেপিসি

এক্সটেনশিয়ালিটির জন্য কেএস পরীক্ষার সময় ডেটা থেকে রেট প্যারামিটারটি অনুমান করা হয়: কলমোগোরভ স্মারনভ পরীক্ষা সম্পর্কে একটি নির্লজ্জ প্রশ্ন দেখুন ।
Scortchi - পুনর্বহাল মনিকা

8

আমি সাধারণত ডায়াগনস্টিক প্লট (যেমন কিউকিউ প্লট) ব্যবহার করে তদন্ত পরীক্ষা করার পরামর্শ দিই, আমি পরীক্ষাগুলি নিয়ে আলোচনা করব, কারণ লোকেরা প্রায়শই তাদের চায়:

টমাসের পরামর্শ অনুসারে, কলমোগোরভ-স্মারনভ পরীক্ষা একটি অনির্ধারিত প্যারামিটারের সাহায্যে এক্সপেনশিয়ালিটি পরীক্ষার জন্য উপযুক্ত নয়

তবে, আপনি যদি প্যারামিটার অনুমানের জন্য সারণীগুলি সামঞ্জস্য করেন তবে আপনি এক্সপোনেনশিয়াল বিতরণের জন্য লিলিফর্স পরীক্ষা পান।

লিলিফর্স, এইচ। (1969), "কলমোগোরভ – স্মারনভ পরীক্ষায় গড় অজানা দিয়ে তাত্পর্য বিতরণ করার জন্য", আমেরিকান স্ট্যাটিস্টিকাল অ্যাসোসিয়েশনের জার্নাল , খণ্ড। 64। পৃষ্ঠা 387–389।

এই পরীক্ষার ব্যবহারটি কনভারের প্রাকটিক্যাল ননপ্যারামেট্রিক স্ট্যাটিস্টিক্সে আলোচনা করা হয়েছে ।

তবে ডি'গোস্টিনো এবং স্টিফেন্সে ফিট প্রযুক্তি ধার্মিকতা , তারা (অ্যান্ডার্সন Darling, পরীক্ষার একটি অনুরূপ পরিবর্তন কিছুটা তির্যকভাবে যদি আমি সঠিক প্রত্যাহার নিয়ে আলোচনা, কিন্তু আমি মনে করি কিভাবে সূচকীয় ক্ষেত্রে জন্য এটা কাছে সব প্রয়োজনীয় তথ্য বইটিতে পাওয়া যাবে) এবং এটি আকর্ষণীয় বিকল্পগুলির বিরুদ্ধে আরও শক্তি অর্জনের প্রায় নিশ্চিত।

n(1r2)R অর্ডার পরিসংখ্যান এবং সূচকীয় স্কোরের মধ্যে কোরিলেশন (প্রত্যাশিত সূচকীয় আদেশের পরিসংখ্যান)। এটি কিউকিউ প্লটের সাথে সম্পর্কিতটি পরীক্ষা করার সাথে মিলে যায়।

অবশেষে, কেউ রায়নার অ্যান্ড বেস্টের বইয়ের মতো মসৃণ পরীক্ষার পদ্ধতি গ্রহণ করতে পারে ( 1990 এর গুডনেস অফ স্মার্ট টেস্টস - যদিও আমি বিশ্বাস করি যে থাস এবং " ইন আর " শিরোনামে যুক্ত হওয়ার পরে )। ঘৃণ্য মামলাটিও এতে আচ্ছাদিত:

জেসিডাব্লু রেনার এবং ডিজে সেরা (১৯৯০), "ফিটনেসের সদ্ব্যবহারের পরীক্ষা: একটি ওভারভিউ", আন্তর্জাতিক পরিসংখ্যান পর্যালোচনা , খণ্ড। 58, নং 1 (এপ্রিল, 1990), পৃষ্ঠা 9-17

কসমা শালিজি তার স্নাতকোত্তর অ্যাডভান্সড ডেটা অ্যানালাইসিস লেকচার নোটের একটি অধ্যায়ে মসৃণ পরীক্ষার বিষয়েও আলোচনা করেন বা একটি এলিমেন্টারি পয়েন্ট অফ ভিউ থেকে তাঁর অ্যাডভান্সড ডেটা অ্যানালাইসিসের বই 15 দেখুন

উপরের কিছুগুলির জন্য, আপনাকে পরীক্ষার পরিসংখ্যান বিতরণ সিমুলেট করার প্রয়োজন হতে পারে; অন্যদের জন্য টেবিলগুলি উপলভ্য রয়েছে (তবে এই কয়েকটি ক্ষেত্রে, লিলিফোর্স পরীক্ষার মতো, যেমন সীমাবদ্ধ সিমুলেশন আকারের কারণে সীমাবদ্ধ করা যায়, তবে নিজের অনুকরণ করা আরও সহজ হতে পারে)।

n(1r2)


5

আপনি কিউকিউ প্লট ব্যবহার করতে পারেন যা একে অপরের বিরুদ্ধে কোয়ান্টাইল প্লট করে দুটি সম্ভাব্যতা বন্টনকে তুলনা করার জন্য একটি গ্রাফিক্যাল পদ্ধতি is

আর-তে, বিশেষভাবে ঘনিষ্ঠভাবে বিতরণ করার জন্য (অন্তত বেস ফাংশনগুলির মধ্যে) কোনও বাইরের কিউকিউ-প্লট ফাংশন নেই। তবে আপনি এটি ব্যবহার করতে পারেন:

qqexp <-  function(y, line=FALSE, ...) { 
    y <- y[!is.na(y)]
    n <- length(y)
    x <- qexp(c(1:n)/(n+1))
    m <- mean(y)
    if (any(range(y)<0)) stop("Data contains negative values")
    ylim <- c(0,max(y))
    qqplot(x, y, xlab="Exponential plotting position",ylim=ylim,ylab="Ordered sample", ...)
    if (line) abline(0,m,lty=2)
    invisible()
  }

আপনার ফলাফলগুলি ব্যাখ্যার সময়: তুলনা করা দুটি বিতরণ যদি একইরকম হয় তবে কিউকিউ প্লটের পয়েন্টগুলি প্রায় y = x রেখায় থাকবে। যদি বিতরণগুলি রৈখিকভাবে সম্পর্কিত হয় তবে কিউকিউ প্লটের বিন্দুগুলি প্রায় এক লাইনের উপরেই থাকে তবে y = x রেখায় অগত্যা নয়।


2
স্টাটাতে, qexpএসএসসি থেকে একটি ডাবের বাস্তবায়ন।
নিক কক্স
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.