যদি দেওয়া নমুনাগুলি কোনও পোইসন বিতরণ থেকে নেওয়া হয় তবে আমি কীভাবে পরীক্ষা করতে পারি?


41

আমি স্বাভাবিকতা পরীক্ষা জানি, কিন্তু আমি কীভাবে "পোয়েসন-নেস" পরীক্ষা করব?

আমার কাছে ~ 1000 অ-নেতিবাচক পূর্ণসংখ্যার নমুনা রয়েছে, যা আমি সন্দেহ করি যে এটি পোইসন বিতরণ থেকে নেওয়া হয়েছে এবং আমি এটি পরীক্ষা করতে চাই।

উত্তর:


18

আমার সমস্ত পরামর্শের প্রথমটি হ'ল আপনাকে অবশ্যই পোয়েসন বিতরণের চেষ্টা করা যেমন উপাত্তের থেকে করা উচিত ততটাই বিরত থাকতে হবে। আমি আপনাকে পরামর্শ দিচ্ছি যে আপনাকে অবশ্যই পোয়েসন বিতরণটি কোনও নির্দিষ্ট ডেটাসেট বা কোনও ঘটনার সাথে মাপসই করা উচিত as

একবার আপনি এটি স্থাপন করার পরে, পরবর্তী প্রশ্নটি হল বিতরণটি একজাতীয় কিনা। এর অর্থ ডেটাগুলির সমস্ত অংশ একই পিসন বিতরণ দ্বারা পরিচালিত হয় বা সময় বা স্থানের মতো কিছু দিকের ভিত্তিতে এর মধ্যে কোনও পার্থক্য রয়েছে কিনা। একবার আপনি এই দিকগুলি সম্পর্কে নিশ্চিত হয়ে গেলে, নিম্নলিখিত তিনটি পরীক্ষা করে দেখুন:

  1. চি স্কোয়ার ভেরিয়েবল ব্যবহার করে সম্ভাবনা অনুপাতের পরীক্ষা
  2. শর্তাধীন চি-বর্গ পরিসংখ্যানের ব্যবহার; একে পয়েসন ছত্রভঙ্গ পরীক্ষা বা ভেরিয়েন্স টেস্টও বলা হয়
  3. নেইমন-স্কট পরিসংখ্যানের ব্যবহার, এটি পয়েসন ভেরিয়েবলের পরিবর্তনের স্থিতিশীল রূপান্তরের উপর ভিত্তি করে

এগুলির জন্য অনুসন্ধান করুন এবং আপনি সহজেই নেট এ খুঁজে পাবেন।


3
"বিতরণটি একজাতীয় কিনা বা না ... একবার আপনি এই বিষয়গুলি সম্পর্কে নিশ্চিত হয়ে গেলে" কীভাবে এটি নির্ধারণ করবেন আপনি কিছুটা মন্তব্য করতে পারেন?
মানে-থেকে-অর্থ-

13

এখানে আর কমান্ডগুলির একটি ক্রম রয়েছে যা সহায়ক হতে পারে। আপনার কোনও ভুল চিহ্নিত হলে নির্দ্বিধায় মন্তব্য করুন বা সম্পাদনা করুন।

set.seed(1)
x.poi<-rpois(n=200,lambda=2.5) # a vector of random variables from the Poisson distr.

hist(x.poi,main="Poisson distribution")

lambda.est <- mean(x.poi) ## estimate of parameter lambda
(tab.os<-table(x.poi)) ## table with empirical frequencies


freq.os<-vector()
for(i in 1: length(tab.os)) freq.os[i]<-tab.os[[i]]  ## vector of emprical frequencies

freq.ex<-(dpois(0:max(x.poi),lambda=lambda.est)*200) ## vector of fitted (expected) frequencies

acc <- mean(abs(freq.os-trunc(freq.ex))) ## absolute goodness of fit index acc
acc/mean(freq.os)*100 ## relative (percent) goodness of fit index

h <- hist(x.poi ,breaks=length(tab.os))
xhist <- c(min(h$breaks),h$breaks)
yhist <- c(0,h$density,0)
xfit <- min(x.poi):max(x.poi)
yfit <- dpois(xfit,lambda=lambda.est)
plot(xhist,yhist,type="s",ylim=c(0,max(yhist,yfit)), main="Poison density and histogram")
lines(xfit,yfit, col="red")

#Perform the chi-square goodness of fit test 
#In case of count data we can use goodfit() included in vcd package
library(vcd) ## loading vcd package
gf <- goodfit(x.poi,type= "poisson",method= "MinChisq")
summary(gf)
plot(gf,main="Count data vs Poisson distribution")

3
এই লাইন: freq.ex <- (dpois (0: সর্বোচ্চ (x.poi), lambda = lambda.est) * 200) কিছু বাস্তব বিশ্বের ডেটা দিয়ে ত্রুটি তৈরি করে, কারণ freq.ex দৈর্ঘ্য ফ্রিকের সাথে মেলে না। obs এই লাইনে acc <- মানে (অ্যাবস (freq.os-trunc (freq.ex)))। আমি এই লাইনটি freq.ex <- (dpois (seq (0, সর্বাধিক (x.poi)) [% x.poi তে% (সেকেন্ড (0: সর্বোচ্চ (x.poi))%, ল্যাম্বডা = ল্যাম্বদা.এস্ট) এর সাথে রূপান্তর করেছি * 200) তবে কিছু এখনও ঠিক সঠিক নয় কারণ গুডফুটটি সতর্কতা দেয়।
রাসেলপিয়ের্স

আপনার কোড ব্যবহার করে আমি 121 এর ফিট ইনডেক্সের একটি ভাল ধারণা পেয়েছি But তবে এটি আপেক্ষিক, তাই না? সুতরাং এটি 0 এবং 100 এর মধ্যে হওয়া উচিত, তাই না?
মেরোস


5

পরীক্ষার পরিসংখ্যান হিসাবে আপনি ছড়িয়ে পড়ার (গড়ের সাথে বৈচিত্রের অনুপাত) ব্যবহার করতে পারেন, যেহেতু পোইসনকে 1 এর বিস্তৃতি দেওয়া উচিত, এটি কীভাবে মডেল পরীক্ষা হিসাবে এটি ব্যবহার করবেন তার একটি লিঙ্ক এখানে রয়েছে


+1 আপনাকে ধন্যবাদ। প্রায়শই আমি কিছু "ক্লান্ত" ফলাফল পাই, উদাহরণস্বরূপ, একটি সাধারণ বন্টন উচ্চতর পি-মান পায় তবে একটি পিসন একটি হয়, যেখানে ল্যাম্বডা তুলনামূলকভাবে ছোট হয় (সুতরাং কেবল সাধারণ দেখায় এবং পোয়েসন একেবারেই সাদৃশ্য হয় না)
ডেভিড বি

6
404 পাওয়া যায়নি!!
রডরিগো

5

পইসন বিতরণের জন্য, গড়টি বৈচিত্রের সমান। যদি আপনার নমুনার গড়টি আপনার নমুনা বৈকল্পিকের থেকে খুব আলাদা হয় তবে আপনার কাছে সম্ভবত পয়সোন ডেটা নেই। এখানে বর্ণিত ছড়িয়ে পড়া পরীক্ষাটি সেই ধারণার একটি আনুষ্ঠানিককরণ is

আপনার বৈকল্পিক যদি আপনার গড়ের চেয়ে অনেক বেশি বড় হয়, যেমনটি সাধারণত হয় তবে আপনি পরবর্তী সময়ে নেতিবাচক দ্বিপদী বিতরণ চেষ্টা করতে চাইতে পারেন।


5
আর তাই যদি গড়টি একই রকম হয় তবে আপনি কি উপসংহারে পৌঁছাতে পারবেন যে ডেটা ছিল পোইসন? না!
পিটারআর

সত্য। প্রয়োজনীয় তবে পর্যাপ্ত নয়।
জন ডি কুক

2

আপনি একটি একক চিত্র আঁকতে পারেন যেখানে পর্যবেক্ষণ করা এবং প্রত্যাশিত ফ্রিকোয়েন্সি পাশাপাশি আঁকতে হবে। যদি বিতরণগুলি খুব আলাদা হয় এবং আপনারও একের চেয়ে বড় বৈকল্পিক-গড় অনুপাত থাকে তবে একটি ভাল প্রার্থী হবেন .ণাত্মক দ্বিপদী। থেকে ফ্রিকোয়েন্সি বিতরণ বিভাগটি পড়ুন The R Book। এটি একটি খুব অনুরূপ সমস্যা নিয়ে কাজ করে।


1

আমি মনে করি যে মূল পয়েন্টটি সিডমাস্ট্রো উত্থাপন করে ... এটি পরীক্ষামূলক সেটআপ বা ডেটা জেনারেশন প্রক্রিয়া কোনও পয়সন বিতরণ থেকে ডেটা উত্থাপিত হতে পারে সেই ভিত্তিকে সমর্থন করে?

আমি বিতরণীয় অনুমানের জন্য পরীক্ষার বড় ভক্ত নই, যেহেতু এই পরীক্ষাগুলি সাধারণত খুব কার্যকর হয় না। আমার কাছে যেটি বেশি কার্যকর বলে মনে হয় তা হ'ল সাধারণত বিতর্ক বা মডেল অনুমানগুলি যা মডেল থেকে বিচ্যুতিগুলির জন্য নমনীয় এবং যুক্তিসঙ্গত দৃust়, সাধারণত অনুমানের উদ্দেশ্যে। আমার অভিজ্ঞতায়, গড় = বৈকল্পিকতা দেখা খুব সাধারণ নয়, তাই প্রায়শই নেতিবাচক দ্বিপদী মডেলটি আরও উপযুক্ত বলে মনে হয় এবং পোয়েসনকে একটি বিশেষ কেস হিসাবে অন্তর্ভুক্ত করে।

আর একটি বিষয় যা বিতরণামূলক পরীক্ষার জন্য গুরুত্বপূর্ণ, আপনি যদি এটি করতে চান তবে তা নিশ্চিত করে নিন যে সেখানে স্তরগুলি জড়িত নেই যা আপনার পর্যবেক্ষণ বিতরণকে অন্যান্য বিতরণের মিশ্রণ তৈরি করবে। পৃথক স্তর-নির্দিষ্ট বিতরণগুলি পয়সন প্রদর্শিত হতে পারে, তবে পর্যবেক্ষণের মিশ্রণটি এটি নাও হতে পারে। রিগ্রেশন থেকে একটি উপমা পরিস্থিতি কেবল ধরে নেয় যে Y | এক্স এর শর্তসাপেক্ষ বিতরণ সাধারণত বিতরণ করা হয়, এবং সত্যই Y এর নিজের বন্টন নয়।


রিগ্রেশন সম্পর্কিত আপনার শেষ পয়েন্টটি কেবলমাত্র যদি এক্স এলোমেলো হয় সত্য হবে। যদি এক্স স্থির হয় তবে Y এরও স্বাভাবিক হবে। না?

হ্যাঁ, এটি সত্য, তবে সাধারণ প্রতিরোধের সমস্যার জন্য (আনোভা বা নকশাকৃত সমস্যার বিপরীতে), এক্স সত্যই স্থির নয় তবে অন্তর্নিহিত প্রক্রিয়া থেকে পর্যবেক্ষণ। যাইহোক, পয়সন কেসের ক্ষেত্রে বিষয়টি এখনও ধরে যায়, যেহেতু পয়েসনের মিশ্রণগুলি অবশ্যই পয়সন নয়।
অভিজিৎ

0

এটি পরীক্ষা করার আরেকটি উপায় হ'ল কোয়ান্টাইল কোয়ান্টাইল প্লট। আর-তে, কিউকিপ্লট রয়েছে। এটি সরাসরি একই মান এবং এসডি সহ একটি সাধারণ বিতরণের বিরুদ্ধে আপনার মানকে প্লট করে

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.