একটি "বাধা মডেল" আসলেই কি একটি মডেল? নাকি মাত্র দুটি পৃথক, অনুক্রমিক মডেল?


25

yসাধারণ ভবিষ্যদ্বাণীকের কাছ থেকে গণনার ডেটা পূর্বাভাস দেওয়ার একটি বাধা মডেল বিবেচনা করুন x:

set.seed(1839)
# simulate poisson with many zeros
x <- rnorm(100)
e <- rnorm(100)
y <- rpois(100, exp(-1.5 + x + e))

# how many zeroes?
table(y == 0)

FALSE  TRUE 
   31    69 

এই ক্ষেত্রে, আমার কাছে 69 জিরো এবং 31 টি ইতিবাচক গণনা সহ ডেটা গণনা করা আছে। এই মুহুর্তের জন্য কিছুই মনে রাখবেন না, ডেটা-জেনারেশন পদ্ধতির সংজ্ঞা অনুসারে এটি একটি পয়সন প্রক্রিয়া, কারণ আমার প্রশ্নটি বাধা মডেলগুলি সম্পর্কে।

ধরা যাক আমি বাধা মডেল দ্বারা এই অতিরিক্ত শূন্যগুলি পরিচালনা করতে চাই। তাদের সম্পর্কে আমার পড়া থেকে দেখে মনে হয়েছিল যে বাধা মডেলগুলি প্রতি সেচ আসল মডেল নয় — তারা কেবল ক্রমিকভাবে দুটি পৃথক বিশ্লেষণ করছেন। প্রথমে, একটি লজিস্টিক রিগ্রেশন ভবিষ্যদ্বাণী করে যে মানটি শূন্যের তুলনায় ধনাত্মক কিনা। দ্বিতীয়ত, শূন্য-কেটে যাওয়া পোইসন রিগ্রেশন কেবল শূন্য নয় এমন কেস সহ। এই দ্বিতীয় পদক্ষেপটি আমার কাছে ভুল অনুভূত কারণ এটি হ'ল (ক) পুরোপুরি ভাল ডেটা ফেলে দেওয়া, যা (খ) বিদ্যুতের সমস্যার কারণ হতে পারে যেহেতু অনেকগুলি ডেটা জিরোস, এবং (গ) মূলত এবং নিজের মধ্যে একটি "মডেল" নয় , তবে কেবল ধারাবাহিকভাবে দুটি পৃথক মডেল চলছে।

সুতরাং আমি একটি "বাধা মডেল" বনাম কেবল লজিস্টিক এবং শূন্য-কাটা পোয়েসন রিগ্রেশন পৃথকভাবে চালানোর চেষ্টা করেছি। তারা আমাকে অভিন্ন উত্তর দিয়েছে (আমি সংক্ষিপ্তসার জন্য আউটপুট সংক্ষিপ্ত করছি):

> # hurdle output
> summary(pscl::hurdle(y ~ x))

Count model coefficients (truncated poisson with log link):
            Estimate Std. Error z value Pr(>|z|)  
(Intercept)  -0.5182     0.3597  -1.441   0.1497  
x             0.7180     0.2834   2.533   0.0113 *

Zero hurdle model coefficients (binomial with logit link):
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  -0.7772     0.2400  -3.238 0.001204 ** 
x             1.1173     0.2945   3.794 0.000148 ***

> # separate models output
> summary(VGAM::vglm(y[y > 0] ~ x[y > 0], family = pospoisson()))

Coefficients: 
            Estimate Std. Error z value Pr(>|z|)  
(Intercept)  -0.5182     0.3597  -1.441   0.1497  
x[y > 0]      0.7180     0.2834   2.533   0.0113 *

> summary(glm(I(y == 0) ~ x, family = binomial))

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)   0.7772     0.2400   3.238 0.001204 ** 
x            -1.1173     0.2945  -3.794 0.000148 ***
---

মডেলটির বিভিন্ন গাণিতিক উপস্থাপনার মধ্যে ইতিবাচক গণনা মামলার অনুমানের ক্ষেত্রে কোনও পর্যবেক্ষণ শূন্য নয় এমন সম্ভাবনা অন্তর্ভুক্ত হওয়ার পরে এটি আমার কাছে মনে হয়, তবে আমি যে মডেলগুলির উপরে উঠেছি তারা একে অপরকে সম্পূর্ণ উপেক্ষা করে। উদাহরণস্বরূপ, এটি শ্রেণিবদ্ধ এবং অবিচ্ছিন্ন সীমিত নির্ভরশীল ভেরিয়েবলগুলির জন্য স্মিথসন এবং মের্কেলের জেনারালাইজড লিনিয়ার মডেলগুলির অধ্যায় 5, পৃষ্ঠা 128 এর থেকে :

... দ্বিতীয়ত, যে কোনও মান ধরেছে এমন সম্ভাবনা (শূন্য এবং ধনাত্মক পূর্ণসংখ্যার) অবশ্যই একটি সমান হবে। এটি সমীকরণ (5.33) এ গ্যারান্টিযুক্ত নয়। এই সমস্যাটি মোকাবেলা করার জন্য, আমরা বার্নোলির সাফল্য সম্ভাবনা দ্বারা পইসন সম্ভাব্যতাটিকে গুণিত করি ।      এই সমস্যাগুলির জন্য আমাদের উপরের বাধা মডেলটিকে যেখানে , ,Yপি ( ওয়াই = Y | এক্স , z- র , β , γ ) = { 1 - π জন্য  Y = 0 π × Exp (π

...λ=Exp(এক্সβ)π=আমিটি-1(z- রγ)এক্সz- রβγ

(5.34)পি(ওয়াই=Y|এক্স,z- র,β,γ)={1-π^জন্য Y=0π^×মেপুঃ(-λ^)λ^Y/Y!1-মেপুঃ(-λ^)জন্য Y=1,2,...
λ^=মেপুঃ(এক্সβ)π^=আমিটি-1(z- রγ)এক্সপোইসন মডেলের হলেন, লজিস্টিক রিগ্রেশন মডেলের সহকারী , এবং এবং the হ'ল রেজিস্ট্রেশন সহগ; । z- রβ^γ^

দুটি মডেল একে অপরের থেকে সম্পূর্ণ আলাদা করে — যা মনে হয় বাধা মডেলগুলি কী করে be আমি দেখতে পাচ্ছি না কীভাবে positive ইতিবাচক গণনার ক্ষেত্রে পূর্বাভাসে অন্তর্ভুক্ত রয়েছে। তবে মাত্র দুটি ভিন্ন মডেল চালিয়ে আমি কীভাবে ফাংশনটির অনুলিপি করতে সক্ষম হয়েছি তার উপর ভিত্তি করে , আমি দেখতে পাই না যে কীভাবে ছাঁটাই পোয়েসনে ভূমিকা পালন করে? আদৌ রিগ্রেশন logit-1(z- র γ )π^hurdlelogit-1(z- রγ^)

আমি কি বাধা মডেলগুলি সঠিকভাবে বুঝতে পারি? তারা মনে হয় দুটি মাত্র দুটি ক্রমিক মডেল চালাচ্ছে: প্রথমত, একটি লজিস্টিক; দ্বিতীয়ত, পইসন, ক্ষেত্রে সম্পূর্ণ উপেক্ষা করে । যদি কেউ confusion i ব্যবসায়ের সাথে আমার বিভ্রান্তি পরিষ্কার করতে পারে তবে আমি প্রশংসা করব ।πY=0π^


যদি আমি ঠিক করি যে বাধা মডেলগুলি সেগুলিই হয় তবে সাধারণভাবে "বাধা" মডেলের সংজ্ঞা কী? দুটি ভিন্ন পরিস্থিতি কল্পনা করুন:

  • প্রতিযোগিতামূলক স্কোরগুলি দেখে (1 - (বিজয়ীর ভোটের অনুপাত - রানার আপের ভোটের অনুপাত)) মডেলিংয়ের প্রতিযোগিতার মডেলিংয়ের কল্পনা করুন। এটি [0, 1), কারণ কোনও সম্পর্ক নেই (যেমন, 1)। একটি বাধা মডেল এখানে বোঝা যায়, কারণ একটি প্রক্রিয়া আছে (ক) নির্বাচনটি বিনা প্রতিদ্বন্দ্বিতায় ছিল? এবং (খ) যদি তা না হয় তবে প্রতিযোগিতার কী পূর্বাভাস ছিল? সুতরাং আমরা প্রথমে 0 বনাম (0, 1) বিশ্লেষণ করতে একটি লজিস্টিক রিগ্রেশন করি। তারপরে আমরা (0, 1) কেস বিশ্লেষণ করতে বিটা রিগ্রেশন করি।

  • একটি আদর্শ মনস্তাত্ত্বিক অধ্যয়ন কল্পনা করুন। প্রতিক্রিয়াগুলি [১,]], traditionalতিহ্যবাহী লিকার্ট স্কেলের মতো, যার বিশাল সিলিং প্রভাব at. এ রয়েছে যে কোনও একটি প্রতিবন্ধকতা মডেল করতে পারে যা [1, 7) বনাম 7 এর লজিস্টিক রিগ্রেশন, এবং তারপরে সমস্ত ক্ষেত্রে যেখানে টোবিট রিগ্রেশন হয় পর্যালোচনা করা প্রতিক্রিয়াগুলি <7।

এই দুটি পরিস্থিতিকেই "বাধা" মডেল বলা কি নিরাপদ হবে , আমি যদি তাদের দুটি অনুক্রমিক মডেল (প্রথম ক্ষেত্রে লজিস্টিক এবং তারপরে বিটা, লজিস্টিক এবং দ্বিতীয়টিতে টবিট) দিয়ে অনুমান করি তবে?


5
আমি বিশ্বাস করি যে বাধা মডেলগুলি দুটি পৃথক (বাইনারি + শূন্য-কাটা) মডেল চালানোর সমতুল্য । প্রযুক্তিগত কারণে এটি কাজ করে আসে তা প্রথমতঃ মডেল ব্যবহার করে শুধুমাত্র শূন্য / অ শূন্য অনুমান করার জন্য ; অনুমানের কোনও শূন্য প্রতিক্রিয়ায় দ্বিতীয় মডেল শর্তλπλ
বেন বলকার

সুতরাং then তারপরে যার জন্য তার জন্য হবে ? 1আমিY>0π^1আমিY>0
হোয়াইট

3
না শব্দটি, যেমন ...π^পি(ওয়াই=Y|ওয়াই>0)=মেপুঃ(-λ^)প্রভৃতি
বেন বোলকার

আহ, আপনাকে ধন্যবাদ। সুতরাং আমি অনুমান করি যে স্মিথসন এবং মের্কেলের সমীকরণটি প্রয়োগ করা হয়েছে তার চেয়ে আলাদা মডেলটির বর্ণনা দিয়েছে pscl::hurdleতবে এটি এখানে সমীকরণ 5 তে একই দেখাচ্ছে: cran.r-project.org/web/packages/pscl/vignettes/countreg.pdf অথবা সম্ভবত আমি আমি এখনও বেসিক কিছু অনুপস্থিত যা এটি আমার জন্য ক্লিক করবে?
মার্ক হোয়াইট

4
এটি একই মডেল। মাইক এবং এড সবচেয়ে সাধারণ ক্ষেত্রে (লজিট + পোইসন) ফোকাস করে যা ডিফল্ট hurdle()। আমাদের যুক্ত / ভিনগেটে, যদিও আমরা আরও সাধারণ বিল্ডিং ব্লকগুলিকে জোর দেওয়ার চেষ্টা করি।
আছিম জেলিলেস

উত্তর:


35

লগ-সম্ভাবনা পৃথকীকরণ

এটি সঠিক যে বেশিরভাগ প্রতিবন্ধকতা মডেলগুলি আলাদাভাবে অনুমান করা যায় (আমি বলব, ক্রমানুসারে পরিবর্তে )। কারণটি হ'ল লগ-সম্ভাবনাটি দুটি অংশে পচে যায় যা পৃথকভাবে সর্বাধিকতর করা যায়। এটি কারণ কেবলমাত্র একটি স্কেলিং ফ্যাক্টর (5.34) যা লগ-সম্ভাবনার একটি সংযোজনীয় শব্দ হয়ে ওঠে।π^

স্মিথসন এবং স্বরলিপিটিতে: যেখানে (অবরুদ্ধ) পোয়েজন বিতরণের ঘনত্ব এবং হ'ল শূন্যের কাটা থেকে ফ্যাক্টর।

(β,γ;Y,এক্স,z- র)=1(γ;Y,z- র)+ +2(β;Y,এক্স)=Σআমি:Yআমি=0লগ{1-আমিটি-1(z- রআমিγ)}+ +Σআমি:Yআমি>0লগ{আমিটি-1(z- রআমিγ)}+ +Σআমি:Yআমি>0[লগ{(Yআমি;মেপুঃ(এক্সআমিβ)}-লগ{1-(0;মেপুঃ(এক্সআমিβ)}]
(Y;λ)=মেপুঃ(-λ)λY/Y!1-(0;λ)=1-মেপুঃ(-λ)

তারপরে এটি স্পষ্ট হয়ে ওঠে যে (বাইনারি মডেল) এবং (শূন্য-কাটা মডেল) পৃথকভাবে সর্বোচ্চ করা যেতে পারে, একই প্যারামিটারের অনুমানগুলি, সমবায়ু ইত্যাদি ইত্যাদির দিকে নিয়ে যায় case যেখানে সেগুলি যৌথভাবে সর্বাধিক করা হয়।1(γ)2(β)

একই লজিকটিও কাজ করে যদি শূন্য বাধা সম্ভাবনা লজিট মডেলটির মাধ্যমে প্যারামিট্রাইজ করা না হয় তবে অন্য কোনও বাইনারি রিগ্রেশন মডেল, উদাহরণস্বরূপ, একটি গণনা বিতরণ ১-এ ডান-সেন্সর করা হয় এবং অবশ্যই, হতে পারে অন্য গণনা বিতরণ, যেমন negativeণাত্মক দ্বিপদী। শূন্য বাধা এবং কাটা কাটা অংশের মধ্যে ভাগ করা প্যারামিটারগুলি থাকলে সম্পূর্ণ বিচ্ছেদটি কেবল ভেঙে যায়।π()

একটি উল্লেখযোগ্য উদাহরণ হ'ল যদি মডেলের দুটি উপাদানগুলিতে পৃথক তবে সাধারণ পরামিতিগুলি সহ নেতিবাচক দ্বিপদী বিতরণগুলি নিযুক্ত করা হয়। (এই পাওয়া যায় এ আর-ফোর্জ, এর উত্তরাধিকারী থেকে প্যাকেজ বাস্তবায়ন।)μθhurdle(..., separate = FALSE, dist = "negbin", zero.dist = "negbin")countregpscl

কংক্রিট প্রশ্ন

(ক) পুরোপুরি ভাল ডেটা ফেলে দেওয়া: আপনার ক্ষেত্রে হ্যাঁ, সাধারণভাবে নয়। অতিরিক্ত জিরো ছাড়াই আপনার একক পোইসন মডেল থেকে ডেটা রয়েছে ( অনেকগুলি জিরো হলেও )। সুতরাং, জিরো এবং নন-জিরোগুলির জন্য পৃথক মডেলগুলি অনুমান করার প্রয়োজন নেই। যাইহোক, দুটি অংশ যদি সত্যিই বিভিন্ন পরামিতি দ্বারা চালিত হয় তবে এটির জন্য অ্যাকাউন্ট নেওয়া প্রয়োজন।

(খ) অনেকগুলি ডেটা জিরো হওয়ায় বিদ্যুৎ সংক্রান্ত সমস্যা তৈরি করতে পারে: অগত্যা নয়। এখানে, আপনার কাছে পর্যবেক্ষণগুলির একটি তৃতীয়াংশ রয়েছে যা "সাফল্য" (বাধা অতিক্রম)। বাইনারি রিগ্রেশন মডেলটিকে এটি খুব চরম বিবেচনা করা হবে না। (অবশ্যই, যদি পৃথক মডেলগুলি অনুমান করা অপ্রয়োজনীয় হয় তবে আপনি শক্তি অর্জন করতে পারেন))

(গ) মূলত এবং নিজেই কোনও 'মডেল' নয়, তবে ক্রমানুসারে দুটি পৃথক মডেল চালানো: এটি আরও দার্শনিক এবং আমি "একটি" উত্তর দেওয়ার চেষ্টা করব না। পরিবর্তে, আমি বাস্তবের দৃষ্টিকোণগুলি নির্দেশ করব। মডেল অনুমানের জন্য , জোর দেওয়া সুবিধাজনক হতে পারে যে মডেলগুলি পৃথক কারণ - যেমন আপনি দেখান - অনুমানের জন্য আপনার কোনও উত্সর্গীকৃত কাজের প্রয়োজন হতে পারে না। মডেল প্রয়োগের জন্য , যেমন পূর্বাভাস বা অবশিষ্টাংশ ইত্যাদির জন্য, এটি একক মডেল হিসাবে দেখা আরও সুবিধাজনক হতে পারে।

(d) এই দুটি পরিস্থিতিকেই 'বাধা' মডেল বলা নিরাপদ হবে: নীতিগতভাবে হ্যাঁ। তবে, সম্প্রদায়গুলিতে জার্গন বিভিন্ন রকম হতে পারে। উদাহরণস্বরূপ, শূন্য-বাধা বিটা রিগ্রেশন সাধারণভাবে (এবং খুব বিভ্রান্তিকরভাবে) শূন্য-স্ফীত বিটা রিগ্রেশন নামে পরিচিত। ব্যক্তিগতভাবে, আমি পরেটিকে খুব বিভ্রান্তিকর বলে মনে করি কারণ বিটা বিতরণে কোনও জিরো নেই যা ফুলে উঠতে পারে - তবে এটি সাহিত্যে কোনওভাবেই আদর্শ শব্দ term অধিকন্তু, টোবাইট মডেলটি একটি সেন্সর করা মডেল এবং তাই কোনও বাধা মডেল নয়। এটি প্রবিট (বা লগিট) মডেল এবং একটি ছাঁটাই করা সাধারণ মডেল দ্বারা প্রসারিত হতে পারে । একোমেট্রিক্স সাহিত্যে এটি ক্রেগ দ্বি-অংশ মডেল হিসাবে পরিচিত।

সফ্টওয়্যার মন্তব্য

countregএ আর-ফোর্জ উপর প্যাকেজ https://R-Forge.R-project.org/R/?group_id=522 উত্তরসূরি বাস্তবায়ন hurdle()/ zeroinfl()থেকে pscl। এটি সিআরএন-তে নেই (এখনও) না হওয়ার মূল কারণটি হ'ল আমরা predict()ইন্টারফেসটি সংশোধন করতে চাই , সম্ভবত এমনভাবে যা সম্পূর্ণরূপে পশ্চাদপটে সামঞ্জস্যপূর্ণ নয়। অন্যথায় বাস্তবায়ন বেশ স্থিতিশীল। এর তুলনায় psclকয়েকটি দুর্দান্ত বৈশিষ্ট্য নিয়ে আসে, যেমন:

  • এমন একটি zerotrunc()ফাংশন যা hurdle()মডেলের শূন্য-কাটা অংশের জন্য ঠিক একই কোড ব্যবহার করে। সুতরাং, এটি একটি বিকল্প প্রস্তাব VGAM

  • তদতিরিক্ত, এটি শূন্য-কাটা, বাধা এবং শূন্য-স্ফীত গণনা বিতরণের জন্য ডি / পি / কিউ / আর হিসাবে কাজ করে functions এগুলিকে পৃথক মডেলের পরিবর্তে "এক" মডেল হিসাবে দেখার সুবিধা দেয়।

  • ফিটের সদ্ব্যবহারের মূল্যায়ন করার জন্য, রুটোগ্রাম এবং এলোমেলোভাবে কোয়ান্টাইলের অবশিষ্ট প্লটগুলির মতো গ্রাফিকাল ডিসপ্লে উপলব্ধ। (ক্লিবার এবং জেইলিস, ২০১,, আমেরিকান পরিসংখ্যানবিদ , 70 (3), 296–303 দেখুন i ডও : 10.1080 / 00031305.2016.1173590 ))

সিমুলেটেড ডেটা

আপনার সিমুলেটেড ডেটা একক পয়সন প্রক্রিয়া থেকে আসে। যদি eকোনও পরিচিত নিবন্ধক হিসাবে বিবেচনা করা হয় তবে এটি স্ট্যান্ডার্ড পোইসন জিএলএম হবে। যদি eকোনও অজানা শব্দের উপাদান হয়, তবে কিছু অরক্ষিত বৈধতা রয়েছে যা কিছুটা অতিরিক্ত পরিমাণে বিভ্রান্তি সৃষ্টি করে যা নেতিবাচক দ্বিপদী মডেল বা অন্য কোনও ধরণের ধারাবাহিক মিশ্রণ বা এলোমেলো প্রভাব ইত্যাদির দ্বারা ধরা পড়তে পারে তবে, এর প্রভাব eএখানে বরং ছোট , এর কোনোটাই বড় পার্থক্য করে না। নীচে, আমি eএকটি রেজিস্টার হিসাবে চিকিত্সা করছি (অর্থাত্, 1 এর সহগ সহ) তবে আপনি এটি বাদ দিতে পারেন এবং নেতিবাচক দ্বিপদী বা পোইসন মডেল ব্যবহার করতে পারেন। গুণগতভাবে, এগুলি সমস্ত একই ধরণের অন্তর্দৃষ্টি নিয়ে যায়।

## Poisson GLM
p <- glm(y ~ x + e, family = poisson)
## Hurdle Poisson (zero-truncated Poisson + right-censored Poisson)
library("countreg")
hp <- hurdle(y ~ x + e, dist = "poisson", zero.dist = "poisson")
## all coefficients very similar and close to true -1.5, 1, 1
cbind(coef(p), coef(hp, model = "zero"), coef(hp, model = "count"))
##                   [,1]       [,2]      [,3]
## (Intercept) -1.3371364 -1.2691271 -1.741320
## x            0.9118365  0.9791725  1.020992
## e            0.9598940  1.0192031  1.100175

এটি প্রতিফলিত করে যে তিনটি মডেলই ধারাবাহিকভাবে সত্যের পরামিতিগুলি অনুমান করতে পারে। সংশ্লিষ্ট মানক ত্রুটিগুলি দেখানো থেকে বোঝা যায় যে এই দৃশ্যে (কোনও বাধা অংশের প্রয়োজন ছাড়াই) পোইসন জিএলএম আরও দক্ষ:

serr <- function(object, ...) sqrt(diag(vcov(object, ...)))
cbind(serr(p), serr(hp, model = "zero"), serr(hp, model = "count"))
##                  [,1]      [,2]      [,3]
## (Intercept) 0.2226027 0.2487211 0.5702826
## x           0.1594961 0.2340700 0.2853921
## e           0.1640422 0.2698122 0.2852902

মানক তথ্যের মানদণ্ডটি সত্য পয়সন জিএলএমকে সেরা মডেল হিসাবে বেছে নেবে:

AIC(p, hp)
##    df      AIC
## p   3 141.0473
## hp  6 145.9287

এবং একটি ওয়াল্ড পরীক্ষা সঠিকভাবে সনাক্ত করতে পারে যে বাধা মডেলের দুটি উপাদান উল্লেখযোগ্যভাবে পৃথক নয়:

hurdletest(hp)
## Wald test for hurdle models
## 
## Restrictions:
## count_((Intercept) - zero_(Intercept) = 0
## count_x - zero_x = 0
## count_e - zero_e = 0
## 
## Model 1: restricted model
## Model 2: y ~ x + e
## 
##   Res.Df Df  Chisq Pr(>Chisq)
## 1     97                     
## 2     94  3 1.0562     0.7877

শেষ পর্যন্ত উভয়ই rootogram(p)এবং qqrplot(p)দেখান যে পোইসন জিএলএম ডেটাটি খুব ভালভাবে ফিট করে এবং আরও ভুল বানান সম্পর্কিত কোনও অতিরিক্ত শূন্য বা ইঙ্গিত নেই।

rootogram + + qqrplot


অতিরিক্ত শূন্য এবং অনেক শূন্যের মধ্যে পার্থক্য কী?
তাতামি

1
একটি উদাহরণ: প্রত্যাশা এর সাথে একটি পয়সন বিতরণে প্রায় । এটি অবশ্যই অনেক শূন্য । যাইহোক, যদি আপনার কাছে এমন বিতরণ থাকে যা পোইসন (0.5) এর আকারযুক্ত তবে আরও শূন্য হয় তবে সেগুলি হ'ল অতিরিক্ত শূন্য( 0 ; λ = 0.5 ) 60 %λ=0.5(0;λ=0.5)60%
আছিম জেলিলেস

4

আমি শূন্য-স্ফীত এবং বাধা মডেলগুলির মধ্যে পার্থক্যটি বোঝা শক্ত agree উভয়ই এক ধরণের মিশ্রণের মডেল। আমি যা বলতে পারি তা থেকে, গুরুত্বপূর্ণ পার্থক্যটি হ'ল শূন্য-স্ফীত মডেলে আপনি শূন্যের একটি ভরকে একটি বিতরণ \ টেক্সিট with এর সাথে মিশ্রণ করেন যা মান শূন্য }ও নিতে পারে} একটি বাধা মডেলের জন্য, আপনি শূন্যের একটি ভরকে এমন একটি বিতরণ দিয়ে মিশ্রণ করেন যা কেবলমাত্র 0 এর চেয়ে বেশি মান নেয় Thus 'আপনি যে মডেলটি মেশাচ্ছেন তার থেকে 0 টির সম্ভাবনার সাথে সম্পর্কিত। অবশ্যই, এই পরিচয়টি বিতরণের সঠিক পছন্দটি করার জন্য দৃ strongly়তার সাথে নির্ভর করে! তবে, যদি আপনার কাছে শূন্য-স্ফীত পোইসন থাকে, উদাহরণস্বরূপ, আপনি পয়সোন উপাদান (নমুনা জিরো) এবং শূন্যের (কাঠামোগত জিরো) ভর থেকে আগত শূন্যগুলির মধ্যে পার্থক্য করতে পারেন। আপনার যদি শূন্য-স্ফীত মডেল থাকে এবং আপনি যে বিতরণটি মিশ্রিত করছেন তার শূন্যের কোন ভর নেই, এটি একটি বাধা মডেল হিসাবে ব্যাখ্যা করা যেতে পারে।


যদিও দুটি ধরণের শূন্যের মধ্যে পার্থক্য হ'ল একটি প্রয়োজনীয়তা যা সরাসরি মডেলের স্পেসিফিকেশন থেকে বেরিয়ে আসে, বাধা মডেলের জন্য একই ধরণের পরিমাণ গণনা করা সম্ভব। তথাকথিত স্ট্রাকচারাল জিরোগুলি নিরক্ষিত গণনা বিতরণ (পইসন বলুন) থেকেও গণনা করা যেতে পারে যদিও এর পরামিতিগুলি একটি কাটা নমুনার উপর ভিত্তি করে ছিল । স্ট্রাকচারাল জিরোগুলির সম্ভাবনা হ'ল শূন্যের জন্য সম্ভাব্যতার মধ্যে (সামগ্রিকভাবে শূন্য বাধা অংশ থেকে) এবং নমুনা শূন্যগুলির মধ্যে পার্থক্য।
আছিম জেলিলেস

1

দার্শনিক দিক সম্পর্কে, "কখন আমাদের কোনও একক মডেল এবং কখন দুটি পৃথক মডেল বিবেচনা করা উচিত" , এটি আকর্ষণীয় হতে পারে যে মডেল-পরামিতিগুলির নমুনা অনুমানের সাথে সম্পর্কযুক্ত।

সিমুলেশন সহ নীচের প্লটটিতে আপনি বেশিরভাগ theাল এবং গণনা অংশের বিরতিতে পারস্পরিক সম্পর্ক দেখতে পান। তবে গণনা অংশ এবং বাধা অংশের মধ্যে কিছুটা সামান্য সম্পর্কও রয়েছে। আপনি যদি প্যারামিটারগুলি পরিবর্তন করেন, যেমন পোইসন বিতরণে ল্যাম্বডাকে ছোট বা নমুনার আকার ছোট করুন, তবে পরস্পর সম্পর্ক আরও দৃ becomes় হয়।

সুতরাং আমি বলব যে আপনি এটি দুটি পৃথক মডেল হিসাবে বিবেচনা করা উচিত নয় । অথবা অন্ততপক্ষে কিছুটা সম্পর্ক রয়েছে যদিও বাস্তবে আপনি দুটি অনুমান একে অপরের থেকে পৃথক করে তুলতে পারেন।

সম্পর্কযুক্তরূপে

set.seed(1839)

Nrep <- 3000
Ns <- 100
pars <- matrix(rep(0,3*Nrep),Nrep)
colnames(pars) <- c("count_intercept","count_slope","hurdle_intercept")

# simulation-loop
# Note that a truncated poisson is used to generate data
# this will make the parameters from the hurdle function easier to interpret and compare
for (i in 1:Nrep) {
  x <- rnorm(Ns,0,1)
  e <- rbinom(Ns,1,exp(-0.7))
  y <- e*truncdist::rtrunc(n=Ns,spec='pois',a=0,b=Inf,lambda=exp(-1.5 + x))
  mod <- pscl::hurdle(y ~ 1+x|1, link="log")
  pars[i,1]<-mod$coefficients$count[1]
  pars[i,2]<-mod$coefficients$count[2]
  pars[i,3]<-mod$coefficients$zero[1]
}  

# viewing data
plotpars <- pars[pars[,1]>-7,] #clipping
pairs(plotpars,cex=0.7,pch=21,
      col= rgb(0,0,0,0.03),
      bg = rgb(0,0,0,0.03))

# demonstrating linear relation / significant correlation
summary(lm(pars[,1] ~ pars[,3]))

এটি খুব একটা বোঝায় না যে দুটি অংশের মধ্যে একটি সম্পর্ক রয়েছে। তবে এটি পয়সন মডেলের প্যারামিটারগুলির জন্য অনুমানের পৃথক স্তরের কারণে এবং এটি কীভাবে শূন্যের সংখ্যার সাথে সম্পর্কিত might


আমি এটির প্রতিলিপি করতে পারি না। আমার জন্য: truncdist::rtrunc(n = 100, spec = 'pois', a = 0, b = Inf, lambda = exp(-1.5 + rnorm(100)))একটি ত্রুটি (ব্যবহার সংস্করণ 1.0.2) উৎপাদ: Error in if (G.a == G.b) { : the condition has length > 1। যাই হোক না কেন, আর-ফোর্জে rhpois()প্যাকেজটি ব্যবহার করা countregকোনও প্রতিবন্ধকতা piপোইসন মডেল থেকে প্রদত্ত বাধা অতিক্রমের সম্ভাবনা এবং অন্তর্নিহিত (নিরশ্রুত) পোইসন প্রত্যাশা সহ সিমুলেট করার পক্ষে সহজ lambda। আমি যদি এগুলি ব্যবহার করি তবে আমি শূন্য প্রতিবন্ধকতা এবং কাটা কাটা অংশের মধ্যে কেবল খুব ছোট অভিজ্ঞতাগত পারস্পরিক সম্পর্ক পেতে পারি।
আছিম জেলিলেস

ডেটা উৎপাদিত প্রক্রিয়া: dgp <- function(n = 100, b = c(-0.5, 2), g = c(0.5, -2)) { x <- runif(n, -1, 1) ; y <- rhpois(n, lambda = exp(b[1] + b[2] * x), pi = plogis(g[1] + g[2] * x)); data.frame(x = x, y = y) }সিমুলেশন: set.seed(1); cf <- t(replicate(3000, coef(hurdle(y ~ x, data = dgp()))))। মূল্যায়ন: pairs(cf)এবং cor(cf)। চেকিং colMeans(cf)থেকেও দেখা যায় যে অনুমানটি যুক্তিসঙ্গতভাবে ভাল কাজ করেছে।
আছিম জেলিলেস

@ আচিমজিলি এই মুহুর্তে আপনার ত্রুটিটি দেখার এবং এটিতে মন্তব্য করার আমার কোনও সম্ভাবনা নেই। তবে যাইহোক, পারস্পরিক সম্পর্কটি আমি যে চিত্রটি দেখিয়েছি তার মধ্যে খুব ছোট নয়। বিষয়টি আরও দার্শনিক / তাত্ত্বিক ছিল। আপনি যখন মডেলটিকে দুটি পৃথক, অবিচ্ছিন্ন, পদক্ষেপ হিসাবে বিবেচনা করেন তখন অনুশীলনে আপনার খুব কম সমস্যা হবে।
সেক্সটাস এম্পেরিকাস
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.