শূন্যে ক্লাম্পিং সহ অ-নেতিবাচক ডেটাগুলির একটি মডেল (টুইডি জিএলএম, শূন্য-স্ফীত জিএলএম ইত্যাদি) সঠিক জিরোগুলির পূর্বাভাস দিতে পারে?

প্যারামিটার (গড়-বিবর্তনের সম্পর্কের ঘাঁটিঘটিত) 1 এবং 2 এর মধ্যে থাকা হলে একটি ট্যুইডি বিতরণ শূন্যের পয়েন্টযুক্ত ভর সহ স্কিউ ডেটা মডেল করতে পারে । $p$

একইভাবে শূন্য-স্ফীত (অন্যথায় অবিচ্ছিন্ন বা বিযুক্ত) মডেলটিতে প্রচুর পরিমাণে জিরো থাকতে পারে।

আমার বুঝতে সমস্যা হচ্ছে কেন এমন হয় যে আমি যখন এই ধরণের মডেলগুলির সাথে লাগানো মানগুলি পূর্বাভাস করি বা গণনা করি তখন পূর্বাভাসিত মানগুলি শূন্য নয়।

এই মডেলগুলি কি সঠিক শূন্যের পূর্বাভাস দিতে পারে?

উদাহরণ স্বরূপ

library(tweedie)
library(statmod)
# generate data
y <- rtweedie( 100, xi=1.3, mu=1, phi=1)  # xi=p
x <- y+rnorm( length(y), 0, 0.2)
# estimate p
out <- tweedie.profile( y~1, p.vec=seq(1.1, 1.9, length=9))
# fit glm
fit <- glm( y ~ x, family=tweedie(var.power=out$p.max, link.power=0))
# predict
pred <- predict.glm(fit, newdata=data.frame(x=x), type="response")

predএখন কোনও জিরো নেই। আমি ভেবেছিলাম টুইডির বিতরণের মতো মডেলগুলির উপযোগিতা সঠিক জিরো এবং অবিচ্ছিন্ন অংশটির পূর্বাভাস দেওয়ার ক্ষমতা থেকে আসে।

আমি জানি যে আমার উদাহরণে ভেরিয়েবল xখুব অনুমানমূলক নয়।

— spore234
সূত্র

সেমিপ্রেমেট্রিক অর্ডিনাল রেসপন্স মডেলগুলিও বিবেচনা করুন, যা

জন্য স্বেচ্ছাসেবী বিতরণের অনুমতি দেয় ।

Y

$Y$

— ফ্রাঙ্ক হ্যারেল

উত্তর:

মনে রাখবেন যে জিএলএম-তে পূর্বাভাসের মানটি একটি গড়।

অ-নেতিবাচক মানগুলিতে যে কোনও বিতরণের জন্য , 0 এর গড় পূর্বাভাস দেওয়ার জন্য, এর বিতরণটি 0 এ পুরোপুরি স্পাইক হতে হবে।

যাইহোক, একটি লগ-লিঙ্ক সঙ্গে, আপনি কখনোই (যেহেতু যে করতে হবে ঠিক শুন্য একটি গড় মাপসই চলুন যেতে )। $\eta$ $-\infty$

সুতরাং আপনার সমস্যাটি টুইডিতে কোনও সমস্যা নয়, তবে আরও সাধারণ; উদাহরণস্বরূপ আপনার পয়সন (শূন্য-স্ফীত বা সাধারণ পয়সন জিএলএম) এর সাথে ঠিক একই সমস্যা হবে।

আমি ভেবেছিলাম টুইডি বিতরণের উপযোগিতা সঠিক জিরো এবং অবিচ্ছিন্ন অংশটির পূর্বাভাস দেওয়ার ক্ষমতা থেকে আসে।

যেহেতু সঠিক শূন্যগুলির পূর্বাভাস কোনও লগ-লিঙ্কের সাথে অ-নেতিবাচক মানগুলিতে কোনও বিতরণের জন্য ঘটবে না, তাই আপনার এ বিষয়ে আপনার চিন্তাভাবনা ভুল হতে হবে।

এর আকর্ষণগুলির একটি হ'ল এটি ডেটাতে নির্ভুল শূন্যগুলি মডেল করতে পারে, এটির মধ্য দিয়ে ভবিষ্যদ্বাণীগুলি 0 হবে না [অবশ্যই ননজারো মানে একটি উপযুক্ত বিতরণ এখনও সঠিক শূন্য হওয়ার সম্ভাবনা থাকতে পারে, যদিও গড়টি 0 ছাড়িয়ে যেতে হবে একটি উপযুক্ত পূর্বাভাস ব্যবধানে 0 টি অন্তর্ভুক্ত থাকতে পারে, উদাহরণস্বরূপ]]

এটি মোটেও গুরুত্বপূর্ণ নয় যে লাগানো বিতরণে শূন্যের কোনও উল্লেখযোগ্য অনুপাত অন্তর্ভুক্ত রয়েছে - যা লাগানো মানে শূন্য করে না।

মনে রাখবেন যে আপনি যদি কোনও পরিচয় লিঙ্ক বলতে আপনার লিঙ্ক ফাংশনটি পরিবর্তন করেন তবে তা সত্যিই আপনার সমস্যার সমাধান করতে পারে না - অ-নেতিবাচক এলোমেলো ভেরিয়েবলের অর্থ যে সমস্ত জিরো নয় তা ইতিবাচক হবে।

— গ্লেন_বি -রাইনস্টেট মনিকা
সূত্র

তোমার ব্যাখ্যার জন্য ধন্যবাদ. আমি একটি টোয়েডি গ্ল্যামকে গামা গ্ল্যামের সাথে তুলনা করেছি এবং বিটাগুলি প্রায় হুবহু, তথ্যে যত জিরো থাকে তা বিবেচনা না করেই (আমি গামার গ্ল্যামের জন্য জিরোগুলিকে খুব ছোট মান হিসাবে পরিবর্তন করি)। এবং এক সাথে জিরো এবং অবিচ্ছিন্ন অংশটির পূর্বাভাস দেওয়ার প্রস্তাবিত উপায় কী।

— spore234

@ spore234 আপনি নিজের গামা-বাধা মডেলটি রোল করতে পারেন, যার মধ্যে 0/1 ভবিষ্যদ্বাণী করার ক্ষেত্রে দ্বি-দ্বিধা বাধা এবং শূন্য-উপাত্তের সাথে গামা মডেল লাগানো হবে। এখানে এই ব্লগ পোস্টের একটি লিঙ্ক রয়েছে যা এই মডেলটি এবং কীভাবে আর-তে হাত দিয়ে একসাথে খাপ খায় সে সম্পর্কে আলোচনা করা হয়েছে an একপাশে কিছু যদি অবিচ্ছিন্ন থাকে তবে আপনি কীভাবে জানবেন যে এটি ঠিক শূন্য? আপনার পরিমাপ যন্ত্রপাতি কি এই জাতীয় সূক্ষ্ম পরিমাপের জন্য সক্ষম?

— মনিকা পুনরায় ইনস্টল করুন - জি সিম্পসন

@ স্পোর, "জিরোদের পূর্বাভাস" দিয়ে আপনি কী বোঝাতে চেয়েছেন সে সম্পর্কে আপনাকে আরও স্পষ্ট থাকতে হবে; আমার উত্তরটি ইতিমধ্যে প্রতিষ্ঠিত করেছে যে টুইডির প্রতিস্থাপনে ব্যবহৃত অন্য কোনও বিতরণকারী মডেল কেন শূন্যের একটি গড় পূর্বাভাস দেয় না (এনবি শূন্য-স্ফীত এবং বাধা মডেলগুলিরও তাদের গড় পূর্বাভাসের সাথে একই সমস্যা রয়েছে)। যখন আপনি একটি জিএলএম ব্যবহার করেছিলেন তখন "ভবিষ্যদ্বাণী" বলতে যা বোঝায় তার অর্থের পূর্বাভাস দেওয়া হয়, এখন আপনি এর দ্বারা কী বোঝাতে চাইছেন? আপনি যদি 0-স্ফীত বা বাধা মডেলটি বোঝায় এমন কিছু বোঝাতে এটি পরিবর্তন করেন তবে একটি টুইডি একই শর্তটি সন্তুষ্ট করতে পারে।

— গ্লেন_বি -রিনস্টেট মনিকা

এটি "পূর্বাভাস" বলতে আপনি যা বোঝাচ্ছেন তার উপর এটি নির্ভর করে (যেহেতু আপনি "গড়ের পূর্বাভাস" বলতে চাইছেন না এটি আপনাকে যা চাচ্ছেন তা বলতে হবে - আপনি কি একটি শূন্যের সম্ভাবনা পূর্বাভাস করতে চান? আপনি কি চান? মধ্যম পূর্বাভাস? অন্য কিছু?), এবং কী ধরণের জিনিস আপনি "ভাল" হিসাবে বিবেচনা করেন তাই কিছু তুলনা করা যেতে পারে।

— গ্লেন_বি

@ spore234 সমস্যাটি আবার, আপনি কি "পূর্বাভাস" শব্দটি ব্যবহার করেন তবে "ভবিষ্যদ্বাণী" বলতে কী বোঝাতে চান তা নির্ধারণ করতে ব্যর্থ হন (আমি জিজ্ঞাসা করি!)। আপনি এই পরিস্থিতিতে এই শব্দটির সবচেয়ে সুস্পষ্ট ব্যাখ্যা উভয়ই প্রত্যাখ্যান করেছেন বলে মনে হচ্ছে আপনার অর্থ কী তা বোঝাতে হবে। যখন আপনি বলছেন "এই ব্যক্তির ব্যয় কত হবে ভবিষ্যদ্বাণী করুন" আপনি আসলে কী বোঝাতে চাইছেন? নোট করুন যে আপনি প্রতিটি ব্যক্তির জন্য সঠিক মূল্য পেতে পারবেন না ... সুতরাং এই "ভবিষ্যদ্বাণী" এর কী কী সম্পত্তি থাকা উচিত?

— গ্লেন_বি -রিনস্টেট মনিকা

শূন্যের অনুপাতের পূর্বাভাস

আমি স্ট্যাটোডম প্যাকেজটির লেখক এবং টুইডি প্যাকেজের যৌথ লেখক। আপনার উদাহরণের সমস্ত কিছুই সঠিকভাবে কাজ করছে। কোডটি কোনও শূন্যের জন্য সঠিকভাবে অ্যাকাউন্টিং করছে যা ডেটাতে থাকতে পারে।

যেমন গ্লেন_বি এবং টিম ব্যাখ্যা করেছেন, পূর্বাভাস করা গড় মান কখনই হুবুহু হয় না, যদি না শূন্যের সম্ভাবনা 100% হয়। শূন্যের পূর্বাভাস অনুপাতে যদিও আগ্রহের বিষয় হতে পারে, এবং আমি নীচে দেখানোর সাথে সাথে এটি সহজেই মডেল ফিট থেকে বের করা যেতে পারে।

এখানে আরও বুদ্ধিমান কাজের উদাহরণ রয়েছে। প্রথমে কিছু তথ্য অনুকরণ করুন:

> library(statmod)
> library(tweedie)
> x <- 1:100
> mutrue <- exp(-1+x/25)
> summary(mutrue)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.3829  1.0306  2.7737  5.0287  7.4644 20.0855 
> y <- rtweedie(100, mu=mutrue, phi=1, power=1.3)
> summary(y)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.0000  0.8482  2.9249  4.7164  6.1522 24.3897 
> sum(y==0)
[1] 12

ডেটাতে 12 জিরো রয়েছে।

এখন একটি টোয়েডি গ্ল্যাম ফিট করুন:

> fit <- glm(y ~ x, family=tweedie(var.power=1.3, link.power=0))
> summary(fit)

Call:
glm(formula = y ~ x, family = tweedie(var.power = 1.3, link.power = 0))

Deviance Residuals: 
     Min        1Q    Median        3Q       Max  
-2.71253  -0.94685  -0.07556   0.69089   1.84013  

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.816784   0.168764   -4.84 4.84e-06 ***
x            0.036748   0.002275   16.15  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for Tweedie family taken to be 0.8578628)

    Null deviance: 363.26  on 99  degrees of freedom
Residual deviance: 103.70  on 98  degrees of freedom
AIC: NA

Number of Fisher Scoring iterations: 4

অবশ্যই উপর রিগ্রেশন $x$ $\phi$

প্রতিটি মানের জন্য শূন্যের পূর্বাভাস অনুপাত $x$ নিম্নলিখিত সূত্র থেকে গণনা করা যেতে পারে:

> Phi <- 0.85786
> Mu <- fitted(fit)
> Power <- 1.3
> Prob.Zero <- exp(-Mu^(2-Power) / Phi / (2-Power))
> Prob.Zero[1:5]
        1         2         3         4         5 
0.3811336 0.3716732 0.3622103 0.3527512 0.3433024 
> Prob.Zero[96:100]
          96           97           98           99          100 
1.498569e-05 1.121936e-05 8.336499e-06 6.146648e-06 4.496188e-06

সুতরাং শূন্যের পূর্বাভাসের অনুপাতটি সর্বনিম্ন গড় গড় মানেরগুলিতে 38.1% থেকে সর্বমোট গড় গড় মানেরগুলিতে 4.5e-6 এ পরিবর্তিত হয়।

সঠিক শূন্যের সম্ভাব্যতার সূত্রটি ডান অ্যান্ড স্মিথ (2001) -র মধ্যে পাওয়া যায় ট্যুডি পারিবারিক ঘনত্ব: মূল্যায়নের পদ্ধতিগুলি বা ডান অ্যান্ড স্মিথ (2005) সিরিজ মূল্যায়নের ট্যোডি এক্সফেনসিয়াল ডিসপারশন মডেল ঘনত্বের মূল্যায়ন ।

— গর্ডন স্মিথ
সূত্র

ধন্যবাদ, দরকারী! সঠিক শূন্যের এই সম্ভাবনার জন্য আত্মবিশ্বাসের ব্যবধানটি কীভাবে গণনা করা যায় সে সম্পর্কে কোনও পরামর্শ? এটা কি আদৌ বোঝা যাবে? আপনার 2005 এর কাগজ থেকে কীভাবে "95% সম্ভাবনা অঞ্চল" সংজ্ঞায়িত করা যায় তা নিয়ে আমিও বিস্মিত হয়েছি, সম্ভবত এমন কিছু জিনিস যা আমি খুঁজে পাই না। আমি একটি রেফারেন্সটির প্রচুর প্রশংসা করব

— ইরিন্টচ 3

ভবিষ্যদ্বাণীগুলি শূন্য-স্ফীত রিগ্রেশন মডেল সম্পর্কে জিজ্ঞাসা করে এই উত্তরটি অন্য থ্রেড থেকে মার্জ করা হয়েছিল, তবে এটি টুইডে জিএলএম মডেলের ক্ষেত্রেও প্রযোজ্য।

$f$ $f$

f_{zeroinfl} (y) = π I_{{0}} (y) + (1 - π) f (y)

$f_\text{zeroinfl}(y) = \pi \,I_{\{0\}}(y) + (1-\pi)\, f(y)$

$I$ $f_\text{zeroinfl}(y)$

μ_{i} = π \cdot 0 + (1 - π) g^{- 1} (x_{i}^{'} β)

$\mu_i = \pi \cdot 0 + (1-\pi)\, g^{-1}(x_i'\beta)$

$g^{-1}$

$Y$ $X$ $Y$ $X$ $Y$ $X$ মান। আপনি দেখতে পাচ্ছেন, স্পষ্টভাবে শূন্য স্ফীত পোইসন রিগ্রেশন মডেল অনুমান $E(Y|X)$ ।

— টিম
সূত্র

টিম, এটি সত্যই একটি দুর্দান্ত উত্তর এবং নিকটে-সংযুক্ত হওয়ার সময়টির জন্য আমি দুঃখিত। আপনি আরও কিছুটা প্রমিতরূপে তৈরি করতে বা আরও ভাল ফিট করার জন্য প্রশ্নটির আরও কিছু সংশোধন করতে চান (আপনি উত্তর দিয়েছেন এমন কিছুকে অন্তর্ভুক্ত করুন), দয়া করে এগিয়ে যান, বা আমি আপনার পক্ষে এটি করতে পেরে খুশি হব।

— গ্লেন_বি -রিনস্টেট মনিকা