পোইসন বিতরণ থেকে কিছুটা আলাদা হওয়ার জন্য সীমাহীন অসংখ্য উপায় রয়েছে; আপনাকে শনাক্ত করতে পারে না যে ডেটার একটি সেট করা হয় একটি পইসন বিতরণের থেকে টানা। আপনি যা করতে পারেন তা কোনও পয়সনের সাথে আপনার যা দেখতে পাওয়া উচিত তার সাথে অসঙ্গতি সন্ধান করা, তবে সুস্পষ্ট অসামঞ্জস্যতার অভাব এটি পোয়েসনকে পরিণত করে না।
যাইহোক, আপনি এই তিনটি মানদণ্ড যাচাই করে সেখানে যে বিষয়ে কথা বলছেন তা পরীক্ষা করে নিচ্ছে না যে পরিসংখ্যানিক উপায়ে (অর্থাত্ ডেটা দেখার দ্বারা) কোনও পয়সন বিতরণ থেকে ডেটা এসেছে কিনা, তবে প্রক্রিয়াটি সন্তুষ্টির মাধ্যমে উত্পন্ন হয় কিনা তা নির্ধারণ করে একটি পয়সন প্রক্রিয়া শর্ত; যদি শর্তগুলি সমস্ত অনুষ্ঠিত বা প্রায় অনুষ্ঠিত হয় (এবং এটি ডেটা তৈরির প্রক্রিয়াটি বিবেচনা করে) তবে আপনার কোনও পোইসন প্রক্রিয়া থেকে বা খুব কাছাকাছি কিছু থাকতে পারে, যা ঘুরে দেখা যায় যে কোনও তথ্য কাছাকাছি থেকে আঁকানো ডেটা পাওয়ার উপায় be পোয়েসন বিতরণ।
তবে শর্তগুলি বিভিন্ন উপায়ে ধরে রাখে না ... এবং সত্য হওয়া থেকে দূরেরতম সংখ্যাটি হল ৩ নম্বর that ভিত্তিতে কোনও পোইসন প্রক্রিয়া দৃ as় করার কোনও বিশেষ কারণ নেই, যদিও লঙ্ঘনগুলি এতটা খারাপ নাও হতে পারে যে ফলস্বরূপ তথ্যগুলি দূরে থাকে পোইসন থেকে
সুতরাং আমরা পরিসংখ্যানগত যুক্তিতে ফিরে এসেছি যা তথ্য নিজেই পরীক্ষা করে আসে। ডেটা কীভাবে দেখায় যে বিতরণটি পিয়সন ছিল, তার চেয়ে ভালো কিছু না?
শুরুতে উল্লিখিত হিসাবে, আপনি যা করতে পারেন তা পরীক্ষা করে নিচ্ছেন যে ডেটা স্পষ্টতই অন্তর্নিহিত ডিস্ট্রিবিউশন পয়েসন হিসাবে বেমানান নয়, তবে এটি আপনাকে জানায় না যে তারা পইসন থেকে আঁকা হয়েছে (আপনি ইতিমধ্যে আত্মবিশ্বাসী হতে পারেন যে তারা আছেন না).
আপনি ফিট টেস্টের সদ্ব্যবহারের মাধ্যমে এই চেকটি করতে পারেন।
যে চি-স্কোয়ারটি উল্লেখ করা হয়েছিল তা হ'ল একটি, তবে আমি নিজেই এই পরিস্থিতির জন্য চি-স্কোয়ার পরীক্ষার পরামর্শ দেব না **; আকর্ষণীয় বিচ্যুতির বিরুদ্ধে এর কম শক্তি রয়েছে। যদি আপনার লক্ষ্যটি ভাল শক্তি অর্জন করা হয় তবে আপনি সেভাবে পাবেন না (যদি আপনি শক্তি সম্পর্কে চিন্তা না করেন তবে আপনি কেন পরীক্ষা করবেন?)। এর মূল মানটি সরলতার মধ্যে এবং এর শিক্ষাগত মান রয়েছে; তার বাইরে, এটি ফিটের পরীক্ষার সদর্থকতা হিসাবে প্রতিযোগিতামূলক নয়।
** পরবর্তী সম্পাদনায় যুক্ত হয়েছে: এখন এটি পরিষ্কার হয়ে গেছে এটি হোম ওয়ার্ক, ডেটা যাচাই করার জন্য আপনি চি-স্কোয়ার্ড পরীক্ষা করার সম্ভাবনাটি পোয়েসনের সাথে অসামঞ্জস্যপূর্ণ নয় a আমার পোষ্যনেস প্লটের নীচে করা ফিটের পরীক্ষার চি-বর্গক্ষেত্রের দৃষ্টান্তটি দেখুন
লোকেরা প্রায়শই ভুল কারণে এই পরীক্ষাগুলি করে (উদাহরণস্বরূপ কারণ তারা বলতে চায় 'সুতরাং ডেটা দিয়ে অন্য কোনও পরিসংখ্যানমূলক কাজ করা ঠিক আছে যা ধরে নেয় যে ডেটা পোইসন')। আসল প্রশ্নটি আছে 'এটি কীভাবে ভুল হতে পারে?' ... এবং ফিট পরীক্ষাগুলির সদর্থকতা আসলে এই প্রশ্নের সাথে খুব বেশি সহায়তা করে না। প্রায়শই সেই প্রশ্নের উত্তর সুনির্দিষ্ট আকারের (যা প্রায় স্বতন্ত্র) নমুনা আকারের is এবং কিছু ক্ষেত্রে স্যাম্পল আকারের সাথে প্রবণতাগুলির সাথে পরিণতি লাভ করে ... এমনকী ফিটের পরীক্ষার একটি সদ্ব্যবহার্য অকেজো ছোট নমুনা (যেখানে অনুমানের লঙ্ঘন থেকে আপনার ঝুঁকি প্রায়শই এর বৃহত্তম হয়)।
যদি আপনাকে অবশ্যই পোইসন বিতরণের জন্য পরীক্ষা করতে হয় তবে কয়েকটি যুক্তিসঙ্গত বিকল্প রয়েছে। একটি হ'ল এন্ডারসন-ডার্লিং পরীক্ষার অনুরূপ কিছু করা, এডি পরিসংখ্যানের ভিত্তিতে তবে শূন্যের অধীনে সিমুলেটেড ডিস্ট্রিবিউশন ব্যবহার করে (একটি বিচ্ছিন্ন বিতরণের যমজ সমস্যার জন্য অ্যাকাউন্টিং করতে এবং আপনাকে অবশ্যই প্যারামিটারগুলি অনুমান করতে হবে)।
একটি সহজ বিকল্প হ'ল ফিটের ধার্মিকতার জন্য একটি স্মুথ টেস্ট - এগুলি পলিওনোমিয়ালের একটি পরিবারকে ব্যবহার করে ডেটা মডেলিংয়ের মাধ্যমে পৃথক বিতরণের জন্য ডিজাইন করা পরীক্ষার সংকলন যা শূন্যের সম্ভাব্যতার সাথে সম্মতিযুক্ত অরথগোনাল। লো অর্ডার (অর্থাত্ আকর্ষণীয়) বিকল্পগুলি পরীক্ষা করে পরীক্ষা করা হয় যে বেসের উপরে বহুভুজের গুণাগুণগুলি শূন্য থেকে আলাদা এবং এগুলি সাধারণত পরীক্ষার থেকে নিম্নতম অর্ডার শর্ত বাদ দিয়ে পরামিতি অনুমানের সাথে মোকাবিলা করতে পারে। পইসনের জন্য এমন একটি পরীক্ষা আছে। আপনার প্রয়োজন হলে আমি একটি রেফারেন্স খনন করতে পারি।
আপনি পোয়েসনেস প্লটটিতে পারস্পরিক সম্পর্ক (বা আরও শাপিরো-ফ্রান্সিয়া পরীক্ষার মতো হতে পারে, সম্ভবত ) ব্যবহার করতে পারেন - যেমন প্লট বনাম (হোয়াগলিন, 1980 দেখুন) - পরীক্ষার পরিসংখ্যান হিসাবে।n ( 1 - আর2)লগ( এক্সট) + লগ( কে ! )ট
আর-তে করা সেই গণনার (এবং প্লট) উদাহরণ এখানে দেওয়া হয়েছে:
y=rpois(100,5)
n=length(y)
(x=table(y))
y
0 1 2 3 4 5 6 7 8 9 10
1 2 7 15 19 25 14 7 5 1 4
k=as.numeric(names(x))
plot(k,log(x)+lfactorial(k))
আমি এখানে যে পরিসংখ্যানগুলির পরামর্শ দিয়েছি সেগুলি কোনও পোইসনের ফিটের পরীক্ষার জন্য ব্যবহার করা যেতে পারে:
n*(1-cor(k,log(x)+lfactorial(k))^2)
[1] 1.0599
অবশ্যই, পি-ভ্যালু গণনা করার জন্য, আপনাকে শূন্যের অধীনে পরীক্ষার পরিসংখ্যান বিতরণও অনুকরণ করতে হবে (এবং মানগুলির সীমার মধ্যে শূন্য-গণনাগুলির সাথে কীভাবে কোনও আচরণ করতে পারে তা নিয়ে আমি আলোচনা করিনি)। এটি যুক্তিসঙ্গতভাবে শক্তিশালী পরীক্ষা দিতে হবে। আরও অনেক বিকল্প পরীক্ষা রয়েছে।
জ্যামিতিক বিতরণ (পি = .3) থেকে 50 মাপের নমুনায় পোয়েসনেস প্লট করার উদাহরণ এখানে রয়েছে:
আপনি দেখতে পাচ্ছেন, এটি একটি স্পষ্ট 'কিঙ্ক' প্রদর্শন করে যা অরৈখিকতা নির্দেশ করে
পোয়েসনেস প্লটের জন্য উল্লেখগুলি হ'ল:
ডেভিড সি। হাগলিন (1980),
"এ পোয়েসনেস প্লট",
আমেরিকান স্ট্যাটিস্টিশিয়ান
ভলিউম। 34, নং 3 (আগস্ট,), পৃষ্ঠা 146-149
এবং
Hoaglin, ডি এবং জে Tukey (1985)
"9. বিচ্ছিন্ন ডিস্ট্রিবিউশন আকৃতি চেক করা হচ্ছে",
ডেটা সারণীগুলির, ট্রেন্ডস এবং আকার এক্সপ্লোরিং ,
(Hoaglin, Mosteller & Tukey ইডিএস)
জন উইলি অ্যান্ড সন্স
দ্বিতীয় রেফারেন্সটিতে ছোট গুনের জন্য প্লটের একটি সমন্বয় রয়েছে; আপনি সম্ভবত এটি অন্তর্ভুক্ত করতে চাইবেন (তবে আমার কাছে রেফারেন্সটি হাতে নেই)।
ফিট টেস্টের চি-বর্গক্ষেত্রের সদ্ব্যবহার করার উদাহরণ:
ফিটের চি-বর্গক্ষেত্রের সদ্ব্যবহার সম্পাদন করার পাশাপাশি এটি সাধারণত যেভাবে অনেক ক্লাসে করা সম্ভব হবে (যদিও আমি এটি করতাম না):
1: আপনার ডেটা দিয়ে শুরু করা, (যা আমি উপরের 'y' এ এলোমেলোভাবে উত্পন্ন ডেটা হিসাবে গ্রহণ করব, গণনার সারণী তৈরি করুন:
(x=table(y))
y
0 1 2 3 4 5 6 7 8 9 10
1 2 7 15 19 25 14 7 5 1 4
2: এমএল দ্বারা লাগানো একটি পয়সন ধরে ধরে প্রতিটি কক্ষে প্রত্যাশিত মানটি গণনা করুন:
(expec=dpois(0:10,lambda=mean(y))*length(y))
[1] 0.7907054 3.8270142 9.2613743 14.9416838 18.0794374 17.5008954 14.1173890 9.7611661
[9] 5.9055055 3.1758496 1.5371112
3: নোট করুন যে শেষ বিভাগগুলি ছোট; এটি পরীক্ষার পরিসংখ্যান বিতরণের আনুমানিক হিসাবে চি-বর্গ বিতরণকে কম ভাল করে তোলে (একটি প্রচলিত নিয়ম আপনি কমপক্ষে 5 এর প্রত্যাশিত মান চান, যদিও অসংখ্য কাগজপত্র এই নিয়মটিকে অহেতুক নিষিদ্ধ বলে দেখিয়েছে; আমি এটি গ্রহণ করব বন্ধ, তবে সাধারণ পদ্ধতিটি একটি কঠোর নিয়মের সাথে মানিয়ে নেওয়া যায়)। সংলগ্ন বিভাগগুলি সঙ্কুচিত করুন, যাতে সর্বনিম্ন প্রত্যাশিত মানগুলি কমপক্ষে 5 এর নিচে খুব বেশি না হয় (10 টিরও বেশি বিভাগের মধ্যে 1 এর কাছাকাছি একটি প্রত্যাশিত গণনা সহ একটি বিভাগ খুব খারাপ নয়, দুটি সুন্দর বর্ডারলাইন) is এছাড়াও লক্ষ করুন যে আমরা "10" এর বাইরে সম্ভাব্যতার জন্য এখনও দায়বদ্ধ হই নি, সুতরাং আমাদের এটিও অন্তর্ভুক্ত করতে হবে:
expec[1]=sum(expec[1:2])
expec[2:8]=expec[3:9]
expec[9]=length(y)-sum(expec[1:8])
expec=expec[1:9]
expec
sum(expec) # now adds to n
4: একইভাবে, পর্যবেক্ষণে ধসের বিভাগগুলি:
(obs=table(y))
obs[1]=sum(obs[1:2])
obs[2:8]=obs[3:9]
obs[9]=sum(obs[10:11])
obs=obs[1:9]
( ওআমি- ইআমি)2/ ইআমি
print(cbind(obs,expec,PearsonRes=(obs-expec)/sqrt(expec),ContribToChisq=(obs-expec)^2/expec),d=4)
obs expec PearsonRes ContribToChisq
0 3 4.618 -0.75282 0.5667335
1 7 9.261 -0.74308 0.5521657
2 15 14.942 0.01509 0.0002276
3 19 18.079 0.21650 0.0468729
4 25 17.501 1.79258 3.2133538
5 14 14.117 -0.03124 0.0009761
6 7 9.761 -0.88377 0.7810581
7 5 5.906 -0.37262 0.1388434
8 5 5.815 -0.33791 0.1141816
এক্স2= ∑আমি( ঙ)আমি- ওআমি)2/ ইআমি
(chisq = sum((obs-expec)^2/expec))
[1] 5.414413
(df = length(obs)-1-1) # lose an additional df for parameter estimate
[1] 7
(pvalue=pchisq(chisq,df))
[1] 0.3904736
ডায়াগনস্টিকস এবং পি-মান উভয়ই এখানে উপযুক্ততার অভাব দেখায় ... যা আমরা প্রত্যাশা করতাম, যেহেতু আমরা যে ডেটা তৈরি করেছি তা পয়সন ছিল।
সম্পাদনা করুন: এখানে রিক উইকলিনের ব্লগের লিঙ্ক রয়েছে যা পোয়েসনেস প্লট নিয়ে আলোচনা করেছে এবং এসএএস এবং মতলব বাস্তবায়নের বিষয়ে আলোচনা করেছে
http://blogs.sas.com/content/iml/2012/04/12/the-poissonness-plot-a-goodness-of-fit-diagnostic/
সম্পাদনা 2: আমার যদি এটি ঠিক থাকে তবে 1985-এর রেফারেন্সের পয়েসনেস প্লটটি পরিবর্তিত হবে *:
y=rpois(100,5)
n=length(y)
(x=table(y))
k=as.numeric(names(x))
x=as.vector(x)
x1 = ifelse(x==0,NA,ifelse(x>1,x-.8*x/n-.67,exp(-1)))
plot(k,log(x1)+lfactorial(k))
* তারা প্রকৃতপক্ষে ইন্টারসেপ্টও সামঞ্জস্য করে, তবে আমি এখানে এটি করি নি; এটি প্লটের উপস্থিতিকে প্রভাবিত করে না, তবে আপনি যদি তাদের দৃষ্টিভঙ্গি থেকে আলাদাভাবে এটি করেন তবে আপনি যদি রেফারেন্স থেকে অন্য কোনও কিছু প্রয়োগ করেন (যেমন আত্মবিশ্বাসের অন্তর)।
(উপরের উদাহরণের জন্য চেহারাটি প্রথম পয়জননেস প্লট থেকে খুব কমই পরিবর্তিত হয়েছে))