কীভাবে সম্ভব যে পয়সন জিএলএম অ-পূর্ণসংখ্যার সংখ্যা গ্রহণ করে?


17

পোইসন জিএলএম অ-পূর্ণসংখ্যার সংখ্যা গ্রহণ করে আমি সত্যিই হতবাক! দেখুন:

ডেটা (বিষয়বস্তু data.txt):

1   2001    0.25  1
1   2002    0.5   1
1   2003    1     1
2   2001    0.25  1
2   2002    0.5   1
2   2003    1     1

আর স্ক্রিপ্ট:

t        <- read.table("data.txt")
names(t) <- c('site', 'year', 'count', 'weight')
tm       <- glm(count ~ 0 + as.factor(site) + as.factor(year), data = t, 
                family = "quasipoisson")  # also works with family="poisson"
years    <- 2001:2003
plot(years, exp(c(0, tail(coef(tm), length(years)-1))), type = "l")

ফলস্বরূপ বছরের সূচকটি "প্রত্যাশিত" হিসাবে, অর্থাত্ 1-2-4বছরগুলিতে 2001-2003

তবে কীভাবে সম্ভব যে পয়সন জিএলএম অ-পূর্ণসংখ্যার সংখ্যা নেয়? পইসন বিতরণ সবসময়ই কেবল পূর্ণসংখ্যায় হয়ে থাকে!


2
আপনি ঠিক কী জানতে চান তা স্পষ্ট করে বলতে পারেন? ফিটিং অ্যালগরিদমটি অ-পূর্ণসংখ্যার সাথে কীভাবে আচরণ করে? অথবা কেন উত্তরটি পূর্ণসংখ্যার কিনা তা যাচাই করে না? অথবা অ-পূর্ণসংখ্যা সরবরাহ করা হয় ফলাফলের মধ্যে কিছু ভুল কিনা?
মোমো

@ মোমো, হ্যাঁ, এই সমস্ত প্রশ্ন আকর্ষণীয়!
কৌতূহল

2
এটি প্রতিফলিত করতে আপনার প্রশ্ন সম্পাদনা করুন। আপনি এইভাবে একটি ভাল উত্তর পাওয়ার সম্ভাবনা বেশি।
মোমো

8
এটি সত্যই যেমন গুরুত্বপূর্ণ তেমনি এটি ঠিক নয় family="poisson"তবে নোট করুন যে আপনার উদাহরণটি পইসন জিএলএম নয়, কারণ আপনি quasipoissonপরিবারটি ব্যবহার করছেন , যা কেবল যাইহোক গড় এবং তারতম্যের মধ্যে সম্পর্কের উপর নির্ভর করে, তাই এতে ক্ষেত্রে, অ-পূর্ণসংখ্যার নম্বর নেওয়া নিয়ে অবাক হওয়ার কিছু নেই।
অ্যারন

1
কেন এটি বোধগম্য হতে পারে সে সম্পর্কে এখানে কিছু উল্লেখ রয়েছে।
দিমিত্রি ভি। মাস্টারভ

উত্তর:


17

অবশ্যই আপনি সঠিক যে পয়সন বিতরণ প্রযুক্তিগতভাবে শুধুমাত্র পূর্ণসংখ্যার জন্য সংজ্ঞায়িত করা হয়েছে। তবে, পরিসংখ্যানগত মডেলিং হ'ল ভাল অনুমানের শিল্প (" সমস্ত মডেল ভুল "), এবং এমন অনেক সময় আসে যখন অ-পূর্ণসংখ্যার ডেটা যেমন পোয়েসনের মতো হয় তেমন আচরণ করা বোধগম্য হয়।

উদাহরণস্বরূপ, যদি আপনি একই গণনা সংক্রান্ত তথ্য রেকর্ড করতে দুটি পর্যবেক্ষককে প্রেরণ করেন তবে এমনটি ঘটতে পারে যে দুটি পর্যবেক্ষক সর্বদা গণনাটিতে একমত হন না - একজন বলতে পারে যে 3 বার কিছু ঘটেছে এবং অন্যটি বলেছিল যে এটি 4 বার ঘটেছে। আপনার পোইসন সহগগুলি 3 এবং 4 এর মধ্যে বেছে না নেওয়ার পরিবর্তে 3.5 ব্যবহার করার বিকল্পটি পাওয়া ভাল।

গণনামূলকভাবে, পয়সনের ফ্যাক্টরিয়ালটি অ-পূর্ণসংখ্যার সাথে কাজ করা কঠিন বলে মনে করতে পারে, তবে ঘটনাক্রমে একটি ক্রমাগত সাধারণীকরণ বিদ্যমান। তদ্ব্যতীত, পয়েসনের পক্ষে সর্বাধিক সম্ভাবনার প্রাক্কলন করা এমনকি যুক্তিযুক্ত কার্যক্রমে জড়িত নয়, একবার আপনি অভিব্যক্তিটিকে সহজ করে তোলেন


15

প্রতিক্রিয়ার জন্য , আপনি যদি তার প্রত্যাশার লগারিদম ধরে থাকেন তবে এটি ভবিষ্যদ্বাণীকারীদের এবং এর তার প্রত্যাশার সমান তারপরে রিগ্রেশন সহগের জন্য নিয়মিত অনুমান পইসন মডেল জন্য স্কোর সমীকরণ সমাধানে দ্বারা প্রাপ্ত করা সম্ভব: অবশ্যই ধারাবাহিকতা কোনও পরীক্ষা বা আত্মবিশ্বাসের অন্তরগুলির বৈধতা বোঝায় না; সম্ভাবনা নির্দিষ্ট করা হয়নি।yx

EYi=expβTxi
VarYi=EYi
β
inxi(yiexpβTxi)=0

এটি স্কুলে আমরা শিখেছি মুহূর্তের পদ্ধতির থেকে অনুসরণ করে এবং সাধারণ অনুমানের সমীকরণগুলির দিকে নিয়ে যায়

@ হারুনের নির্দেশিত আপনি প্রকৃতপক্ষে আপনার কোডে একটি কোয়েস-পয়েসন ফিট ব্যবহার করছেন। তার মানে বৈকল্পিক গড়ের সাথে আনুপাতিক

VarYi=ϕEYi

একটি বিচ্ছুরণ পরামিতি যা ডেটা থেকে অনুমান করা যায়। গুণাগুলি অনুমানগুলি একই হবে তবে তাদের মান ত্রুটিগুলি আরও বিস্তৃত হবে; এটি একটি আরও নমনীয় এবং অতএব আরও সাধারণভাবে কার্যকর পদ্ধতির। (এছাড়াও লক্ষ করুন যে পরামিতিগুলির বৈকল্পিক - কোভারিয়েন্স ম্যাট্রিক্সের স্যান্ডউইচ অনুমানকারীগুলি দৃ rob় স্ট্যান্ডার্ড ত্রুটিগুলি দেওয়ার জন্য প্রায়শই এই ধরণের পরিস্থিতিতে ব্যবহৃত হয় in)ϕ

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.