ডেটাতে কিছুটা ভিন্নতা থাকা সত্ত্বেও কেন আমি আমার মিশ্র মডেলটিতে এলোমেলো প্রভাবের শূন্য প্রকরণ পাব?


22

আমরা নিম্নলিখিত সিনট্যাক্স ব্যবহার করে একটি মিশ্র প্রভাব লজিস্টিক রিগ্রেশন চালিয়েছি;

# fit model
fm0 <- glmer(GoalEncoding ~ 1 + Group + (1|Subject) + (1|Item), exp0,
             family = binomial(link="logit"))
# model output
summary(fm0)

বিষয় এবং আইটেম এলোমেলো প্রভাব। আমরা একটি বিজোড় ফলাফল পাচ্ছি যা বিষয়বস্তুর জন্য সহগ এবং মান বিচ্যুতি উভয়ই শূন্য;

Generalized linear mixed model fit by maximum likelihood (Laplace
Approximation) [glmerMod]
Family: binomial  ( logit )
Formula: GoalEncoding ~ 1 + Group + (1 | Subject) + (1 | Item)
Data: exp0

AIC      BIC      logLik deviance df.resid 
449.8    465.3   -220.9    441.8      356 

Scaled residuals: 
Min     1Q Median     3Q    Max 
-2.115 -0.785 -0.376  0.805  2.663 

Random effects:
Groups  Name        Variance Std.Dev.
Subject (Intercept) 0.000    0.000   
Item    (Intercept) 0.801    0.895   
Number of obs: 360, groups:  Subject, 30; Item, 12

Fixed effects:
                Estimate Std. Error z value Pr(>|z|)    
 (Intercept)     -0.0275     0.2843    -0.1     0.92    
 GroupGeMo.EnMo   1.2060     0.2411     5.0  5.7e-07 ***
 ---
 Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

 Correlation of Fixed Effects:
             (Intr)
 GroupGM.EnM -0.002

এটি হওয়া উচিত নয় কারণ স্পষ্টতই বিষয়গুলির মধ্যে বিভিন্নতা রয়েছে। আমরা যখন স্ট্যাটায় একই বিশ্লেষণ চালাই

xtmelogit goal group_num || _all:R.subject || _all:R.item

Note: factor variables specified; option laplace assumed

Refining starting values: 

Iteration 0:   log likelihood = -260.60631  
Iteration 1:   log likelihood = -252.13724  
Iteration 2:   log likelihood = -249.87663  

Performing gradient-based optimization: 

Iteration 0:   log likelihood = -249.87663  
Iteration 1:   log likelihood = -246.38421  
Iteration 2:   log likelihood =  -245.2231  
Iteration 3:   log likelihood = -240.28537  
Iteration 4:   log likelihood = -238.67047  
Iteration 5:   log likelihood = -238.65943  
Iteration 6:   log likelihood = -238.65942  

Mixed-effects logistic regression               Number of obs      =       450
Group variable: _all                            Number of groups   =         1

                                                Obs per group: min =       450
                                                               avg =     450.0
                                                               max =       450

Integration points =   1                        Wald chi2(1)       =     22.62
Log likelihood = -238.65942                     Prob > chi2        =    0.0000

------------------------------------------------------------------------------
        goal |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
   group_num |   1.186594    .249484     4.76   0.000     .6976147    1.675574
       _cons |  -3.419815   .8008212    -4.27   0.000    -4.989396   -1.850234
------------------------------------------------------------------------------

------------------------------------------------------------------------------
  Random-effects Parameters  |   Estimate   Std. Err.     [95% Conf. Interval]
-----------------------------+------------------------------------------------
_all: Identity               |
               sd(R.subject) |   7.18e-07   .3783434             0           .
-----------------------------+------------------------------------------------
_all: Identity               |
                 sd(R.trial) |   2.462568   .6226966      1.500201    4.042286
------------------------------------------------------------------------------
LR test vs. logistic regression:     chi2(2) =   126.75   Prob > chi2 = 0.0000

Note: LR test is conservative and provided only for reference.
Note: log-likelihood calculations are based on the Laplacian approximation.

সাবজেক্ট টার্মের জন্য ফলাফলগুলি একটি শূন্য-সহগ / সে সাথে প্রত্যাশিত হিসাবে প্রত্যাশিত।

মূলত আমরা ভেবেছিলাম সাবজেক্ট টার্মের কোডিংয়ের সাথে এটি করার কিছু হতে পারে তবে স্ট্রিং থেকে পূর্ণসংখ্যার এটিকে পরিবর্তন করা কোনও তাত্পর্যপূর্ণ হয়নি।

স্পষ্টতই বিশ্লেষণ সঠিকভাবে কাজ করছে না, তবে আমরা অসুবিধার উত্সটি পিন করতে পারছি না। (এই ফোরামের এনবি অন্য কেউ একই ধরণের সমস্যার মুখোমুখি হচ্ছে, তবে এই থ্রেডটি প্রশ্নের উত্তরহীন লিঙ্ক হিসাবে রয়ে গেছে )


2
আপনি বলছেন যে এটি হওয়া উচিত নয় কারণ "স্পষ্টতই বিষয়গুলিতে বিচিত্রতা রয়েছে" তবে যেহেতু আমরা subjectএই ভেরিয়েবলগুলি সম্পর্কে কী বা অন্য কিছু জানি না তাই এটি আমাদের কাছে এতটা "স্পষ্ট" নয় "! এছাড়াও" অ-শূন্য সহগ বিষয়টির জন্য "আপনার স্টাটা বিশ্লেষণ থেকে 7.18e-07 হয়! আমি প্রযুক্তিগতভাবে অনুমান করি এটি" শূন্য নয় "তবে এটি 0 এর থেকে খুব বেশি দূরে নয় ...!
স্মিলিগ

পর্যবেক্ষণের জন্য অনেক ধন্যবাদ। বিষয়গুলি একটি গবেষণায় অংশগ্রহণকারী এবং কার্য সম্পাদনের ক্ষেত্রে তারতম্য থাকতে বাধ্য। গড় স্কোরগুলি 39% সঠিক ছিল, 11% এর মানক বিচ্যুতি সহ। আমি প্রতিবেদন করা পরিসংখ্যানগুলিতে এটি 0.000 এর বেশি হিসাবে উপস্থিত হওয়ার প্রত্যাশা করব তবে ভুল হতে পারে। হ্যাঁ, অবশ্যই 7.18e-07 0.000 এর সমান এবং 0.000 অগত্যা শূন্য নয়।
নিক রিচস

1
প্রতিটি বিষয় কতবার পরীক্ষিত / নমুনাযুক্ত হয়েছিল? আপনার গবেষণার মূল বিষয়গুলি না জেনে স্টাটা যদি আপনাকে বলে যে বিষয়গুলির মধ্যে তারতম্যটি 0.000000718 (০.০7878 এর একটি স্ট্যান্ডার্ড ত্রুটি সহ) এবং আর আপনাকে বলে যে এটি ০.০০০, এখানে গল্পটি নেই যে সত্যই কোনও প্রকরণ নেই বিষয় পর্যায়ে? এছাড়াও নোট করুন যে স্টাটা বিষয়টির প্রকরণের জন্য আপনাকে একটি আত্মবিশ্বাসের ব্যবধান দেয় না।
স্মিলিগ

মন্তব্যের জন্য আবার ধন্যবাদ। বিষয়গুলি 11 বার পরীক্ষা করা হয়েছিল। আমি অনুমান করি এর অর্থ এই যে একবার গোষ্ঠী এবং আইটেমের প্রভাবগুলির জন্য গণনা করা হলে অংশগ্রহণকারীদের মধ্যে খুব কম পার্থক্য রয়েছে। এটি কিছুটা "সন্দেহভাজন" দেখাচ্ছে তবে আমার ধারণা, দুটি পৃথক বিশ্লেষণ জুড়েই ধারাবাহিকতা রয়েছে?
নিক রিচস

উত্তর:


28

এটি https://bbolker.github.io/mixedmodels-misc/glmmFAQ.html ("একক মডেলগুলির জন্য অনুসন্ধান করুন) এ কিছু দৈর্ঘ্যে আলোচনা করা হয়েছে ; এটি সাধারণ, বিশেষত যখন কয়েকটি সংখ্যক গ্রুপ থাকে (যদিও 30 এই প্রসঙ্গে বিশেষভাবে ছোট নয়)।

lme4অন্যান্য অনেক প্যাকেজগুলির মধ্যে একটি পার্থক্য হ'ল লগ স্কেলে ভেরিয়েন্স ফিটিংয়ের মাধ্যমে ভেরিয়েন্সের অনুমানটি অ-নেতিবাচক হওয়া আবশ্যক: lme4এর পূর্বসূরি সহ অনেকগুলি প্যাকেজ হ'ল nlme: এর অর্থ হ'ল ভেরিয়েন্সের প্রাক্কলনটি ঠিক খুব শূন্য হতে পারে না , খুব খুব খুব ছোট. lme4বিপরীতে, সীমাবদ্ধ অপ্টিমাইজেশান ব্যবহার করে, সুতরাং এটি ঠিক শূন্যের মানগুলি ফিরিয়ে দিতে পারে ( আরও আলোচনার জন্য http://arxiv.org/abs/1406.5823 পৃষ্ঠা 24 দেখুন)। http://rpubs.com/bbolker/6226 একটি উদাহরণ দেয়।

বিশেষত, স্টাটা থেকে আপনার বিষয়গুলির মধ্যে ভিন্নতার ফলাফলগুলি ঘনিষ্ঠভাবে দেখে, আপনার কাছে একটি অনুমান আছে ..১৮--০ ((-৩.৪ এর ইন্টারসেপ্টের তুলনায়) .3783434 (এই ক্ষেত্রে মূলত অকেজো!) এর ওয়াল্ড স্ট্যান্ডার্ড বিচ্যুতি সহ "0" হিসাবে তালিকাভুক্ত একটি 95% সিআই; এটি প্রযুক্তিগতভাবে "অ-শূন্য", তবে এটি শূন্যের কাছাকাছি যতটা প্রোগ্রাম রিপোর্ট করবে ...

এটি সুপরিচিত এবং তাত্ত্বিকভাবে প্রমাণযোগ্য (উদাহরণস্বরূপ স্ট্রাম এবং লি বায়োমেট্রিক্স ১৯৯৪) যে বৈকল্পিক উপাদানগুলির জন্য নাল বিতরণটি শূন্যে একটি পয়েন্ট ভর ('স্পাইক') এর মিশ্রণ এবং শূন্য থেকে দূরে চি-স্কোয়ার বিতরণ। Unsurprisingly (কিন্তু আমি যদি এটা প্রমাণিত হচ্ছে / সুপরিচিত জানি না), ভ্যারিয়েন্স উপাদান অনুমান স্যাম্পলিং বন্টন প্রায়ই শূন্য এ একটি গজাল হয়েছে, এমনকি যখন সত্য মান না শূন্য - দেখুন উদাঃ http://rpubs.com/ bbolker / 4187 উদাহরণের জন্য, বা ?bootMerপৃষ্ঠায় সর্বশেষ উদাহরণ :

library(lme4)
library(boot)
## Check stored values from a longer (1000-replicate) run:
load(system.file("testdata","boo01L.RData",package="lme4"))
plot(boo01L,index=3) 

এখানে চিত্র বর্ণনা লিখুন


2
+1 টি। আরেকটি ভাল উত্তর বোন থ্রেডে রয়েছে: stats.stackexchange.com/a/34979 (আমি এই লিঙ্কটি ভবিষ্যতের পাঠকদের জন্য রেখে যাচ্ছি)।
অ্যামিবা

14

আমি মনে করি না কোন সমস্যা আছে। মডেল আউটপুট থেকে পাঠটি হ'ল বিষয় পারফরম্যান্সে "স্পষ্টত" পার্থক্য থাকলেও এই বিষয়টির প্রকরণের পরিধিটি কেবলমাত্র অবশিষ্টাংশের পদ দ্বারা সম্পূর্ণ বা কার্যত-সম্পূর্ণরূপে ব্যাখ্যা করা যেতে পারে। সমস্ত পর্যবেক্ষণের বৈচিত্রটি ব্যাখ্যা করতে অতিরিক্ত সাবজেক্ট-স্তরের র্যান্ডম এফেক্ট যুক্ত করে ওয়ারেন্ট দেওয়ার জন্য পর্যাপ্ত অতিরিক্ত বিষয়-স্তরের প্রকরণ নেই।

এই ভাবে চিন্তা করুন। কল্পনা করুন আমরা এই একই দৃষ্টান্তের অধীনে পরীক্ষামূলক ডেটা সিমুলেট করছি। আমরা প্যারামিটারগুলি সেট আপ করেছি যাতে ট্রায়াল-বাই-ট্রায়াল ভিত্তিতে অবশিষ্টাংশের পার্থক্য থাকে তবে 0 বিষয়-স্তরীয় প্রকরণ (যেমন, সমস্ত বিষয়ের একই "সত্যিকারের গড়," এবং ত্রুটি থাকে)। এখন প্রতিবার যখন আমরা এই পরামিতিগুলির সেট থেকে ডেটা সিমুলেট করি তখন অবশ্যই আমরা দেখতে পাব যে বিষয়গুলির ঠিক সমান পারফরম্যান্স নেই। কিছু কম স্কোর সহ শেষ হয়, কিছু উচ্চ স্কোর সহ। তবে এগুলি কেবলমাত্র অবশিষ্টাংশের ট্রায়াল-স্তরের পরিবর্তনের কারণে। আমরা "জানি" (সিমুলেশন প্যারামিটারগুলি নির্ধারণ করার কারণে) সত্য যে কোনও বিষয়-স্তরের কোনও পার্থক্য নেই।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.