y
সাধারণ ভবিষ্যদ্বাণীকের কাছ থেকে গণনার ডেটা পূর্বাভাস দেওয়ার একটি বাধা মডেল বিবেচনা করুন x
:
set.seed(1839)
# simulate poisson with many zeros
x <- rnorm(100)
e <- rnorm(100)
y <- rpois(100, exp(-1.5 + x + e))
# how many zeroes?
table(y == 0)
FALSE TRUE
31 69
এই ক্ষেত্রে, আমার কাছে 69 জিরো এবং 31 টি ইতিবাচক গণনা সহ ডেটা গণনা করা আছে। এই মুহুর্তের জন্য কিছুই মনে রাখবেন না, ডেটা-জেনারেশন পদ্ধতির সংজ্ঞা অনুসারে এটি একটি পয়সন প্রক্রিয়া, কারণ আমার প্রশ্নটি বাধা মডেলগুলি সম্পর্কে।
ধরা যাক আমি বাধা মডেল দ্বারা এই অতিরিক্ত শূন্যগুলি পরিচালনা করতে চাই। তাদের সম্পর্কে আমার পড়া থেকে দেখে মনে হয়েছিল যে বাধা মডেলগুলি প্রতি সেচ আসল মডেল নয় — তারা কেবল ক্রমিকভাবে দুটি পৃথক বিশ্লেষণ করছেন। প্রথমে, একটি লজিস্টিক রিগ্রেশন ভবিষ্যদ্বাণী করে যে মানটি শূন্যের তুলনায় ধনাত্মক কিনা। দ্বিতীয়ত, শূন্য-কেটে যাওয়া পোইসন রিগ্রেশন কেবল শূন্য নয় এমন কেস সহ। এই দ্বিতীয় পদক্ষেপটি আমার কাছে ভুল অনুভূত কারণ এটি হ'ল (ক) পুরোপুরি ভাল ডেটা ফেলে দেওয়া, যা (খ) বিদ্যুতের সমস্যার কারণ হতে পারে যেহেতু অনেকগুলি ডেটা জিরোস, এবং (গ) মূলত এবং নিজের মধ্যে একটি "মডেল" নয় , তবে কেবল ধারাবাহিকভাবে দুটি পৃথক মডেল চলছে।
সুতরাং আমি একটি "বাধা মডেল" বনাম কেবল লজিস্টিক এবং শূন্য-কাটা পোয়েসন রিগ্রেশন পৃথকভাবে চালানোর চেষ্টা করেছি। তারা আমাকে অভিন্ন উত্তর দিয়েছে (আমি সংক্ষিপ্তসার জন্য আউটপুট সংক্ষিপ্ত করছি):
> # hurdle output
> summary(pscl::hurdle(y ~ x))
Count model coefficients (truncated poisson with log link):
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.5182 0.3597 -1.441 0.1497
x 0.7180 0.2834 2.533 0.0113 *
Zero hurdle model coefficients (binomial with logit link):
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.7772 0.2400 -3.238 0.001204 **
x 1.1173 0.2945 3.794 0.000148 ***
> # separate models output
> summary(VGAM::vglm(y[y > 0] ~ x[y > 0], family = pospoisson()))
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.5182 0.3597 -1.441 0.1497
x[y > 0] 0.7180 0.2834 2.533 0.0113 *
> summary(glm(I(y == 0) ~ x, family = binomial))
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 0.7772 0.2400 3.238 0.001204 **
x -1.1173 0.2945 -3.794 0.000148 ***
---
মডেলটির বিভিন্ন গাণিতিক উপস্থাপনার মধ্যে ইতিবাচক গণনা মামলার অনুমানের ক্ষেত্রে কোনও পর্যবেক্ষণ শূন্য নয় এমন সম্ভাবনা অন্তর্ভুক্ত হওয়ার পরে এটি আমার কাছে মনে হয়, তবে আমি যে মডেলগুলির উপরে উঠেছি তারা একে অপরকে সম্পূর্ণ উপেক্ষা করে। উদাহরণস্বরূপ, এটি শ্রেণিবদ্ধ এবং অবিচ্ছিন্ন সীমিত নির্ভরশীল ভেরিয়েবলগুলির জন্য স্মিথসন এবং মের্কেলের জেনারালাইজড লিনিয়ার মডেলগুলির অধ্যায় 5, পৃষ্ঠা 128 এর থেকে :
... দ্বিতীয়ত, যে কোনও মান ধরেছে এমন সম্ভাবনা (শূন্য এবং ধনাত্মক পূর্ণসংখ্যার) অবশ্যই একটি সমান হবে। এটি সমীকরণ (5.33) এ গ্যারান্টিযুক্ত নয়। এই সমস্যাটি মোকাবেলা করার জন্য, আমরা বার্নোলির সাফল্য সম্ভাবনা দ্বারা পইসন সম্ভাব্যতাটিকে গুণিত করি । এই সমস্যাগুলির জন্য আমাদের উপরের বাধা মডেলটিকে যেখানে , ,পি ( ওয়াই = Y | এক্স , z- র , β , γ ) = { 1 - π জন্য Y = 0 π × Exp (
...λ=Exp(এক্সβ)π=ঠণছআমিটি-1(z- রγ)এক্সz- রβγপোইসন মডেলের হলেন, লজিস্টিক রিগ্রেশন মডেলের সহকারী , এবং এবং the হ'ল রেজিস্ট্রেশন সহগ; ।
দুটি মডেল একে অপরের থেকে সম্পূর্ণ আলাদা করে — যা মনে হয় বাধা মডেলগুলি কী করে be আমি দেখতে পাচ্ছি না কীভাবে positive ইতিবাচক গণনার ক্ষেত্রে পূর্বাভাসে অন্তর্ভুক্ত রয়েছে। তবে মাত্র দুটি ভিন্ন মডেল চালিয়ে আমি কীভাবে ফাংশনটির অনুলিপি করতে সক্ষম হয়েছি তার উপর ভিত্তি করে , আমি দেখতে পাই না যে কীভাবে ছাঁটাই পোয়েসনে ভূমিকা পালন করে? আদৌ রিগ্রেশন logit-1(z- র γ )hurdle
আমি কি বাধা মডেলগুলি সঠিকভাবে বুঝতে পারি? তারা মনে হয় দুটি মাত্র দুটি ক্রমিক মডেল চালাচ্ছে: প্রথমত, একটি লজিস্টিক; দ্বিতীয়ত, পইসন, ক্ষেত্রে সম্পূর্ণ উপেক্ষা করে । যদি কেউ confusion i ব্যবসায়ের সাথে আমার বিভ্রান্তি পরিষ্কার করতে পারে তবে আমি প্রশংসা করব ।π
যদি আমি ঠিক করি যে বাধা মডেলগুলি সেগুলিই হয় তবে সাধারণভাবে "বাধা" মডেলের সংজ্ঞা কী? দুটি ভিন্ন পরিস্থিতি কল্পনা করুন:
প্রতিযোগিতামূলক স্কোরগুলি দেখে (1 - (বিজয়ীর ভোটের অনুপাত - রানার আপের ভোটের অনুপাত)) মডেলিংয়ের প্রতিযোগিতার মডেলিংয়ের কল্পনা করুন। এটি [0, 1), কারণ কোনও সম্পর্ক নেই (যেমন, 1)। একটি বাধা মডেল এখানে বোঝা যায়, কারণ একটি প্রক্রিয়া আছে (ক) নির্বাচনটি বিনা প্রতিদ্বন্দ্বিতায় ছিল? এবং (খ) যদি তা না হয় তবে প্রতিযোগিতার কী পূর্বাভাস ছিল? সুতরাং আমরা প্রথমে 0 বনাম (0, 1) বিশ্লেষণ করতে একটি লজিস্টিক রিগ্রেশন করি। তারপরে আমরা (0, 1) কেস বিশ্লেষণ করতে বিটা রিগ্রেশন করি।
একটি আদর্শ মনস্তাত্ত্বিক অধ্যয়ন কল্পনা করুন। প্রতিক্রিয়াগুলি [১,]], traditionalতিহ্যবাহী লিকার্ট স্কেলের মতো, যার বিশাল সিলিং প্রভাব at. এ রয়েছে যে কোনও একটি প্রতিবন্ধকতা মডেল করতে পারে যা [1, 7) বনাম 7 এর লজিস্টিক রিগ্রেশন, এবং তারপরে সমস্ত ক্ষেত্রে যেখানে টোবিট রিগ্রেশন হয় পর্যালোচনা করা প্রতিক্রিয়াগুলি <7।
এই দুটি পরিস্থিতিকেই "বাধা" মডেল বলা কি নিরাপদ হবে , আমি যদি তাদের দুটি অনুক্রমিক মডেল (প্রথম ক্ষেত্রে লজিস্টিক এবং তারপরে বিটা, লজিস্টিক এবং দ্বিতীয়টিতে টবিট) দিয়ে অনুমান করি তবে?
pscl::hurdle
তবে এটি এখানে সমীকরণ 5 তে একই দেখাচ্ছে: cran.r-project.org/web/packages/pscl/vignettes/countreg.pdf অথবা সম্ভবত আমি আমি এখনও বেসিক কিছু অনুপস্থিত যা এটি আমার জন্য ক্লিক করবে?
hurdle()
। আমাদের যুক্ত / ভিনগেটে, যদিও আমরা আরও সাধারণ বিল্ডিং ব্লকগুলিকে জোর দেওয়ার চেষ্টা করি।