শূন্যের অনুপাতের পূর্বাভাস
আমি স্ট্যাটোডম প্যাকেজটির লেখক এবং টুইডি প্যাকেজের যৌথ লেখক। আপনার উদাহরণের সমস্ত কিছুই সঠিকভাবে কাজ করছে। কোডটি কোনও শূন্যের জন্য সঠিকভাবে অ্যাকাউন্টিং করছে যা ডেটাতে থাকতে পারে।
যেমন গ্লেন_বি এবং টিম ব্যাখ্যা করেছেন, পূর্বাভাস করা গড় মান কখনই হুবুহু হয় না, যদি না শূন্যের সম্ভাবনা 100% হয়। শূন্যের পূর্বাভাস অনুপাতে যদিও আগ্রহের বিষয় হতে পারে, এবং আমি নীচে দেখানোর সাথে সাথে এটি সহজেই মডেল ফিট থেকে বের করা যেতে পারে।
এখানে আরও বুদ্ধিমান কাজের উদাহরণ রয়েছে। প্রথমে কিছু তথ্য অনুকরণ করুন:
> library(statmod)
> library(tweedie)
> x <- 1:100
> mutrue <- exp(-1+x/25)
> summary(mutrue)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.3829 1.0306 2.7737 5.0287 7.4644 20.0855
> y <- rtweedie(100, mu=mutrue, phi=1, power=1.3)
> summary(y)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0000 0.8482 2.9249 4.7164 6.1522 24.3897
> sum(y==0)
[1] 12
ডেটাতে 12 জিরো রয়েছে।
এখন একটি টোয়েডি গ্ল্যাম ফিট করুন:
> fit <- glm(y ~ x, family=tweedie(var.power=1.3, link.power=0))
> summary(fit)
Call:
glm(formula = y ~ x, family = tweedie(var.power = 1.3, link.power = 0))
Deviance Residuals:
Min 1Q Median 3Q Max
-2.71253 -0.94685 -0.07556 0.69089 1.84013
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.816784 0.168764 -4.84 4.84e-06 ***
x 0.036748 0.002275 16.15 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for Tweedie family taken to be 0.8578628)
Null deviance: 363.26 on 99 degrees of freedom
Residual deviance: 103.70 on 98 degrees of freedom
AIC: NA
Number of Fisher Scoring iterations: 4
অবশ্যই এক্স উপর রিগ্রেশনxϕ
প্রতিটি মানের জন্য শূন্যের পূর্বাভাস অনুপাত x নিম্নলিখিত সূত্র থেকে গণনা করা যেতে পারে:
> Phi <- 0.85786
> Mu <- fitted(fit)
> Power <- 1.3
> Prob.Zero <- exp(-Mu^(2-Power) / Phi / (2-Power))
> Prob.Zero[1:5]
1 2 3 4 5
0.3811336 0.3716732 0.3622103 0.3527512 0.3433024
> Prob.Zero[96:100]
96 97 98 99 100
1.498569e-05 1.121936e-05 8.336499e-06 6.146648e-06 4.496188e-06
সুতরাং শূন্যের পূর্বাভাসের অনুপাতটি সর্বনিম্ন গড় গড় মানেরগুলিতে 38.1% থেকে সর্বমোট গড় গড় মানেরগুলিতে 4.5e-6 এ পরিবর্তিত হয়।
সঠিক শূন্যের সম্ভাব্যতার সূত্রটি ডান অ্যান্ড স্মিথ (2001) -র মধ্যে পাওয়া যায় ট্যুডি পারিবারিক ঘনত্ব: মূল্যায়নের পদ্ধতিগুলি বা ডান অ্যান্ড স্মিথ (2005) সিরিজ মূল্যায়নের ট্যোডি এক্সফেনসিয়াল ডিসপারশন মডেল ঘনত্বের মূল্যায়ন ।