জিএলএমএমগুলির স্পেসিফিকেশন এবং ব্যাখ্যা সম্পর্কিত আমার কিছু প্রশ্ন রয়েছে। 3 টি প্রশ্ন অবশ্যই পরিসংখ্যানগত এবং 2 টি আর সম্পর্কে আরও সুনির্দিষ্ট I আমি এখানে পোস্ট করছি কারণ শেষ পর্যন্ত আমি মনে করি বিষয়টি জিএলএমএম ফলাফলের ব্যাখ্যা।
আমি বর্তমানে একটি জিএলএমএম ফিট করার চেষ্টা করছি। আমি লম্বিটুডিনাল ট্র্যাক্ট ডাটাবেস থেকে মার্কিন আদমশুমারির তথ্য ব্যবহার করছি । আমার পর্যবেক্ষণগুলি সেন্সাস ট্র্যাক্টস। আমার নির্ভরশীল ভেরিয়েবলটি শূন্য আবাসন ইউনিটের সংখ্যা এবং আমি শূন্যস্থান এবং আর্থ-সামাজিক পরিবর্তনশীলগুলির মধ্যে সম্পর্কের বিষয়ে আগ্রহী। এখানে উদাহরণটি সহজ, মাত্র দুটি স্থির প্রতিক্রিয়া ব্যবহার করে: শতাংশ অ-শ্বেত জনগোষ্ঠী (জাতি) এবং মধ্যম পরিবারের আয় (শ্রেণি), এবং তাদের মিথস্ক্রিয়া। আমি দুটি নেস্টেড এলোমেলো প্রভাবগুলি অন্তর্ভুক্ত করতে চাই: দশক এবং দশকের মধ্যে ট্র্যাক্টস, (দশক / ট্র্যাক্ট)। স্থানিক (অর্থাত্ ট্র্যাক্টের মধ্যে) এবং অস্থায়ী (অর্থাত্ দশকের মধ্যে) স্বতঃসংশোধনের জন্য নিয়ন্ত্রণ করার প্রয়াসে আমি এ এলোমেলো বিবেচনা করছি। তবে, আমি স্থির প্রভাব হিসাবে দশকে আগ্রহী, তাই আমি এটিও একটি স্থির কারণ হিসাবে অন্তর্ভুক্ত করছি।
যেহেতু আমার স্বাধীন পরিবর্তনশীলটি একটি অ-নেতিবাচক পূর্ণসংখ্যার গণনা পরিবর্তনযোগ্য, তাই আমি পয়েসন এবং নেতিবাচক দ্বিপদী জিএলএমএম ফিট করার চেষ্টা করছি been আমি মোট হাউজিং ইউনিটগুলির অফসেট হিসাবে ব্যবহার করছি। এর অর্থ গুণফলগুলি খালি হারের উপর প্রভাব হিসাবে ব্যাখ্যা করা হয়, খালি খালি মোট সংখ্যা নয়।
আমার কাছে বর্তমানে পাইসন এবং lme4 থেকে গ্লোমার এবং গ্ল্মার.এনবি ব্যবহার করে অনুমানিত নেতিবাচক দ্বিপদী জিএলএমএম-এর ফলাফল রয়েছে । সহগগুলির ব্যাখ্যা আমার কাছে ডেটা এবং অধ্যয়নের ক্ষেত্র সম্পর্কে আমার জ্ঞানের উপর নির্ভর করে sense
আপনি যদি ডেটা এবং স্ক্রিপ্ট চান তবে সেগুলি আমার গিতুবে রয়েছে । মডেলগুলি তৈরির আগে স্ক্রিপ্টটিতে বর্ণনামূলক তদন্তের আরও কিছু রয়েছে।
আমার ফলাফলগুলি এখানে:
পয়সন মডেল
Generalized linear mixed model fit by maximum likelihood (Laplace Approximation) ['glmerMod']
Family: poisson ( log )
Formula: R_VAC ~ decade + P_NONWHT + a_hinc + P_NONWHT * a_hinc + offset(HU_ln) + (1 | decade/TRTID10)
Data: scaled.mydata
AIC BIC logLik deviance df.resid
34520.1 34580.6 -17250.1 34500.1 3132
Scaled residuals:
Min 1Q Median 3Q Max
-2.24211 -0.10799 -0.00722 0.06898 0.68129
Random effects:
Groups Name Variance Std.Dev.
TRTID10:decade (Intercept) 0.4635 0.6808
decade (Intercept) 0.0000 0.0000
Number of obs: 3142, groups: TRTID10:decade, 3142; decade, 5
Fixed effects:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -3.612242 0.028904 -124.98 < 2e-16 ***
decade1980 0.302868 0.040351 7.51 6.1e-14 ***
decade1990 1.088176 0.039931 27.25 < 2e-16 ***
decade2000 1.036382 0.039846 26.01 < 2e-16 ***
decade2010 1.345184 0.039485 34.07 < 2e-16 ***
P_NONWHT 0.175207 0.012982 13.50 < 2e-16 ***
a_hinc -0.235266 0.013291 -17.70 < 2e-16 ***
P_NONWHT:a_hinc 0.093417 0.009876 9.46 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Correlation of Fixed Effects:
(Intr) dc1980 dc1990 dc2000 dc2010 P_NONWHT a_hinc
decade1980 -0.693
decade1990 -0.727 0.501
decade2000 -0.728 0.502 0.530
decade2010 -0.714 0.511 0.517 0.518
P_NONWHT 0.016 0.007 -0.016 -0.015 0.006
a_hinc -0.023 -0.011 0.023 0.022 -0.009 0.221
P_NONWHT:_h 0.155 0.035 -0.134 -0.129 0.003 0.155 -0.233
convergence code: 0
Model failed to converge with max|grad| = 0.00181132 (tol = 0.001, component 1)
নেতিবাচক দ্বিপদী মডেল
Generalized linear mixed model fit by maximum likelihood (Laplace Approximation) ['glmerMod']
Family: Negative Binomial(25181.5) ( log )
Formula: R_VAC ~ decade + P_NONWHT + a_hinc + P_NONWHT * a_hinc + offset(HU_ln) + (1 | decade/TRTID10)
Data: scaled.mydata
AIC BIC logLik deviance df.resid
34522.1 34588.7 -17250.1 34500.1 3131
Scaled residuals:
Min 1Q Median 3Q Max
-2.24213 -0.10816 -0.00724 0.06928 0.68145
Random effects:
Groups Name Variance Std.Dev.
TRTID10:decade (Intercept) 4.635e-01 6.808e-01
decade (Intercept) 1.532e-11 3.914e-06
Number of obs: 3142, groups: TRTID10:decade, 3142; decade, 5
Fixed effects:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -3.612279 0.028946 -124.79 < 2e-16 ***
decade1980 0.302897 0.040392 7.50 6.43e-14 ***
decade1990 1.088211 0.039963 27.23 < 2e-16 ***
decade2000 1.036437 0.039884 25.99 < 2e-16 ***
decade2010 1.345227 0.039518 34.04 < 2e-16 ***
P_NONWHT 0.175216 0.012985 13.49 < 2e-16 ***
a_hinc -0.235274 0.013298 -17.69 < 2e-16 ***
P_NONWHT:a_hinc 0.093417 0.009879 9.46 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Correlation of Fixed Effects:
(Intr) dc1980 dc1990 dc2000 dc2010 P_NONWHT a_hinc
decade1980 -0.693
decade1990 -0.728 0.501
decade2000 -0.728 0.502 0.530
decade2010 -0.715 0.512 0.517 0.518
P_NONWHT 0.016 0.007 -0.016 -0.015 0.006
a_hinc -0.023 -0.011 0.023 0.022 -0.009 0.221
P_NONWHT:_h 0.154 0.035 -0.134 -0.129 0.003 0.155 -0.233
পোয়েসন DHARMa পরীক্ষা করে
One-sample Kolmogorov-Smirnov test
data: simulationOutput$scaledResiduals
D = 0.044451, p-value = 8.104e-06
alternative hypothesis: two-sided
DHARMa zero-inflation test via comparison to expected zeros with simulation under H0 = fitted model
data: simulationOutput
ratioObsExp = 1.3666, p-value = 0.159
alternative hypothesis: more
নেতিবাচক দ্বিপদী DHARMa পরীক্ষা
One-sample Kolmogorov-Smirnov test
data: simulationOutput$scaledResiduals
D = 0.04263, p-value = 2.195e-05
alternative hypothesis: two-sided
DHARMa zero-inflation test via comparison to expected zeros with simulation under H0 = fitted model
data: simulationOutput2
ratioObsExp = 1.376, p-value = 0.174
alternative hypothesis: more
ধর্মা প্লট
পইসন
নেতিবাচক দ্বিপদী
পরিসংখ্যান প্রশ্ন
যেহেতু আমি এখনও জিএলএমএমগুলি সন্ধান করছি আমি স্পেসিফিকেশন এবং ব্যাখ্যা সম্পর্কে নিরাপদ বোধ করছি। আমার কিছু প্রশ্ন আছে:
আমার ডেটা পোইসন মডেল ব্যবহার করে সমর্থন করে না বলে মনে হয় এবং তাই আমি নেতিবাচক দ্বিপদী হিসাবে ভাল। তবে, আমি ধারাবাহিকভাবে সতর্কতা পাই যে আমার নেতিবাচক দ্বিপদী মডেলগুলি সর্বাধিক সীমা বৃদ্ধি করার পরেও তাদের পুনরাবৃত্তির সীমাতে পৌঁছে যায়। "Theta.ML এ (ওয়াই, মিউ, ওজন = অবজেক্ট @ রেস $ ওজন, সীমা = সীমা, পুনরাবৃত্তির সীমাটি পৌঁছেছে" "বেশ কয়েকটি আলাদা স্পেসিফিকেশন ব্যবহার করে এটি ঘটে (অর্থাত্ সংক্ষিপ্ত এবং এলোমেলো প্রভাব উভয়ের জন্য ন্যূনতম এবং সর্বাধিক মডেল))। আমি আমার নির্ভরশীল (স্থূল, আমি জানি!) আউটলিয়ারগুলি অপসারণের চেষ্টাও করেছি, যেহেতু শীর্ষের 1% মানের খুব বেশি বহিরাগত (নীচে 99% পরিসীমা 0-1012 থেকে 1010-55213 এর শীর্ষ 1%) রয়েছে That ' পুনরাবৃত্তির উপর টির কোনও প্রভাব নেই এবং হয় সহগের উপর খুব কম প্রভাব ফেলবে I আমি এখানে এই বিবরণগুলি অন্তর্ভুক্ত করি না। পোইসন এবং নেতিবাচক দ্বিপদীগুলির মধ্যে সহগগুলিও বেশ মিল। এই অভিভাবকের অভাব কি একটি সমস্যা? নেতিবাচক দ্বিপদী মডেল কি ভাল ফিট? আমি ব্যবহার করে নেতিবাচক দ্বিপদী মডেল চালিয়েছিঅলফিট এবং সমস্ত অপ্টিমাইজার এই সতর্কতাটি ফেলে দেয় না (ববাইকা, নেল্ডার মিড, এবং নলমিনিডাব্লু করেনি)।
আমার দশকের স্থির প্রভাবের বৈকল্পিকতা ধারাবাহিকভাবে খুব কম বা 0 হয় I আমি বুঝতে পারি এটির অর্থ মডেলটি অতিরিক্ত পোশাক। স্থির প্রভাবগুলির দশক গ্রহণের ফলে দশকের এলোমেলো প্রভাবের পার্থক্য 0.2620-তে বৃদ্ধি পায় এবং স্থির প্রভাব সহগের উপর খুব বেশি প্রভাব থাকে না। এটি রেখে কিছু ভুল আছে? আমি এটিকে পর্যবেক্ষণের বৈকল্পিকের মধ্যে ব্যাখ্যা করার প্রয়োজনের মতো না হয়ে এটিকে ব্যাখ্যা করছি।
এই ফলাফলগুলি কি ইঙ্গিত করে যে আমার শূন্য-স্ফীত মডেলগুলি চেষ্টা করা উচিত? DHARMa মনে হচ্ছে শূন্য-মুদ্রাস্ফীতিটি সমস্যা নাও হতে পারে suggest আপনি যদি মনে করেন আমার যাইহোক চেষ্টা করা উচিত তবে নীচে দেখুন।
প্রশ্নগুলি
আমি শূন্য-স্ফীত মডেলগুলি চেষ্টা করতে আগ্রহী, তবে আমি নিশ্চিত নই যে কোন প্যাকেজ ইমপ্লিমেন্টগুলি শূন্য-স্ফীত পোইসন এবং নেতিবাচক দ্বিপদী জিএলএমএম-এর জন্য এলোমেলো প্রভাবগুলিকে ঘিরে রেখেছে। আমি এআইসিকে শূন্য-স্ফীত মডেলের সাথে তুলনা করতে গ্ল্যামএডিএডিএমবি ব্যবহার করব তবে এটি একটি একক এলোমেলো প্রভাবের মধ্যে সীমাবদ্ধ যাতে এই মডেলটির পক্ষে কাজ হয় না। আমি MCMCglmm চেষ্টা করতে পারি, তবে আমি বায়েশিয়ান পরিসংখ্যান জানি না তাই এটি আকর্ষণীয়ও নয়। অন্য কোন বিকল্প?
আমি কি সংক্ষিপ্তসার (মডেল) এর মধ্যে ক্ষতিকারক সহগগুলি প্রদর্শন করতে পারি, বা আমি এখানে যেমন করেছি সারাংশের বাইরে তা করতে হবে?
bobyqa
অপ্টিমাইজার চেষ্টা করেছেন এবং এটি কোনও সতর্কতা দেয়নি। তাহলে সমস্যা কি? শুধু ব্যবহার bobyqa
।
bobyqa
ডিফল্ট অপ্টিমাইজারের চেয়ে ভাল রূপান্তরিত হয় (এবং আমি মনে করি যে আমি কোথাও পড়েছি এটি ভবিষ্যতের সংস্করণগুলিতে ডিফল্ট হয়ে উঠবে lme4
)। আমি মনে করি না যে ডিফল্ট অপ্টিমাইজারের সাথে এটি রূপান্তরিত হলে আপনাকে অ-রূপান্তর সম্পর্কে উদ্বিগ্ন হওয়া উচিত bobyqa
।
decade
স্থির এবং এলোমেলো উভয় হিসাবে থাকা বোঝা যায় না। হয় এটিকে স্থির হিসাবে নির্দিষ্ট করুন এবং কেবল(1 | decade:TRTID10)
এলোমেলোভাবে অন্তর্ভুক্ত করুন (যা(1 | TRTID10)
ধরে নেওয়া যায় যে আপনারTRTID10
বিভিন্ন দশকের জন্য একই স্তর নেই) বা স্থির প্রভাব থেকে এটিকে সরিয়ে দিন। কেবলমাত্র 4 টি স্তরের সাথে এটি সংশোধন করা আপনার পক্ষে ভাল। সাধারণের সুপারিশটি হ'ল যদি কারও 5 টি স্তর বা তার বেশি থাকে তবে এলোমেলো প্রভাবগুলি মাপসই করা যায়।