স্বতঃসংশ্লিষ্ট রিসিডুয়াল নিদর্শনগুলি কি উপযুক্ত পারস্পরিক কাঠামোযুক্ত মডেলগুলিতেও রয়ে যায় এবং কীভাবে সেরা মডেলগুলি নির্বাচন করবেন?


17

প্রসঙ্গ

এই প্রশ্নটি আর ব্যবহার করে তবে সাধারণ পরিসংখ্যানগত সমস্যা সম্পর্কে।

আমি সময়ের সাথে মথ জনসংখ্যা বৃদ্ধির হারের উপর মৃত্যুর কারণগুলির (রোগ ও পরজীবীতার কারণে% মৃত্যুর) প্রভাবগুলি বিশ্লেষণ করছি, যেখানে লার্ভা জনসংখ্যাগুলি 12 টি সাইট থেকে 8 বছরের জন্য একবার একবার নমুনা করা হয়েছিল। জনসংখ্যা বৃদ্ধির হারের ডেটা সময়ের সাথে একটি পরিষ্কার তবে অনিয়মিত চক্রাকার প্রবণতা প্রদর্শন করে।

একটি সাধারণ জেনারেলাইজড লিনিয়ার মডেলের অবশিষ্টাংশগুলি (বৃদ্ধির হার ~% রোগ +% পরজীবিতা + বছর) সময়ের সাথে একইভাবে পরিষ্কার কিন্তু অনিয়মিত চক্রীয় প্রবণতা প্রদর্শন করেছে। অতএব, একই আকারের সাধারণী সর্বনিম্ন স্কোয়ার মডেলগুলিকে অস্থায়ী স্বতঃসংশোধন, উদাহরণস্বরূপ যৌগিক প্রতিসাম্য, স্বতঃসংশোধক প্রক্রিয়া অর্ডার 1 এবং অটোরেগ্রেসিভ মুভিং গড় পারস্পরিক সম্পর্ক সম্পর্কিত কাঠামো মোকাবেলায় উপযুক্ত পারস্পরিক কাঠামোগুলির সাথে ডেটাও লাগানো হয়েছিল।

সমস্ত মডেলগুলিতে একই স্থির প্রভাব রয়েছে, এআইসি ব্যবহার করে তুলনা করা হয়েছিল, এবং আরইএমএল দ্বারা লাগানো হয়েছিল (এআইসি দ্বারা বিভিন্ন পারস্পরিক সম্পর্ক কাঠামোর তুলনা করার জন্য)। আমি আর প্যাকেজ nlme এবং gls ফাংশন ব্যবহার করছি।

প্রশ্ন 1

সময়ের বিপরীতে যখন প্লট করা হয় তখনও জিএলএস মডেলগুলির অবশিষ্টাংশগুলি প্রায় একই রকম চক্রীয় নিদর্শনগুলি প্রদর্শন করে। এমন নিদর্শনগুলি কি সর্বদা থাকবে, এমনকি এমন মডেলগুলিতেও যা স্বতঃসংশ্লিষ্ট কাঠামোর জন্য সঠিকভাবে অ্যাকাউন্ট করে?

আমি আমার দ্বিতীয় প্রশ্নের নীচে আর-তে কিছু সরলীকৃত তবে অনুরূপ ডেটা সিমুলেটেড করেছি, যা মডেল অবশিষ্টাংশগুলিতে অস্থায়ীভাবে স্বতঃসংশ্লিষ্ট প্যাটার্নগুলি মূল্যায়নের জন্য প্রয়োজনীয় পদ্ধতিগুলি সম্পর্কে আমার বর্তমান বোঝার উপর ভিত্তি করে বিষয়টি দেখায় , যা আমি জানি এখন ভুল (উত্তর দেখুন)।

প্রশ্ন 2

আমি আমার ডেটাতে সমস্ত সম্ভাব্য প্রশ্রয়যোগ্য পারস্পরিক সম্পর্ক কাঠামো সহ জিএলএস মডেলগুলি ফিট করেছি, তবে কোনও সম্পর্ক সম্পর্কিত কাঠামো ছাড়া GLM এর তুলনায় আসলে কোনওটিই যথেষ্ট ভাল নয়: কেবলমাত্র একটি জিএলএস মডেল প্রান্তিকভাবে উন্নত (এআইসি স্কোর = 1.8 নিম্ন), বাকি সমস্ত আছে উচ্চতর AIC মান। যাইহোক, এটি কেবল তখনই ঘটে যখন সমস্ত মডেলগুলি আরএমএল দ্বারা লাগানো হয়, এমএল নয় যেখানে জিএলএস মডেলগুলি স্পষ্টভাবে অনেক বেশি ভাল হয় তবে আমি স্ট্যাটাস বই থেকে বুঝতে পারি যে আপনাকে কেবল ভিন্ন সম্পর্কের কাঠামোর সাথে মডেলগুলির তুলনা করতে কেবল আরএমএল ব্যবহার করতে হবে এবং কারণগুলির জন্য একই স্থির প্রভাবগুলি আমি এখানে বিস্তারিত করব না।

ডেটার স্পষ্টভাবে অস্থায়ীভাবে স্ব-সংযুক্তিযুক্ত প্রকৃতি প্রদত্ত, যদি কোনও মডেল সাধারণ জিএলএমের তুলনায় পরিমিতরূপে আরও ভাল না হয় তবে কোন মডেলটি অনুমানের জন্য ব্যবহার করা উচিত তা সিদ্ধান্ত নেওয়ার সবচেয়ে উপযুক্ত উপায় কী, ধরে নিলাম আমি একটি উপযুক্ত পদ্ধতি ব্যবহার করছি (আমি শেষ পর্যন্ত ব্যবহার করতে চাই বিভিন্ন পরিবর্তনশীল সংমিশ্রণের তুলনায় এআইসি)?

Q1 'সিমুলেশন' উপযুক্ত পারস্পরিক কাঠামো সহ এবং ছাড়াই মডেলগুলিতে অবশিষ্ট অবধি অন্বেষণ করে

'সময়' এর একটি চক্রীয় প্রভাব এবং 'x' এর ধনাত্মক রৈখিক প্রভাব সহ সিমুলেটেড প্রতিক্রিয়া পরিবর্তনশীল উত্পন্ন করুন:

time <- 1:50
x <- sample(rep(1:25,each=2),50)
y <- rnorm(50,5,5) + (5 + 15*sin(2*pi*time/25)) + (x/1)

y এর এলোমেলো প্রকরণের সাথে 'সময়ের' উপর একটি চক্রীয় প্রবণতা প্রদর্শন করা উচিত:

plot(time,y)

এবং এলোমেলো পরিবর্তনের সাথে 'x' এর সাথে একটি ইতিবাচক রৈখিক সম্পর্ক:

plot(x,y)

"Y ~ টাইম + এক্স" এর একটি সাধারণ লিনিয়ার অ্যাডিটিভ মডেল তৈরি করুন:

require(nlme)
m1 <- gls(y ~ time + x, method="REML")

প্রত্যাশার মতো 'সময়' র বিরুদ্ধে ষড়যন্ত্র করার সময় এই মডেলটি অবশিষ্টাংশগুলিতে স্পষ্ট চক্রীয় নিদর্শনগুলি প্রদর্শন করে:

plot(time, m1$residuals)

এবং 'এক্স' এর বিরুদ্ধে ষড়যন্ত্র করার সময় অবশিষ্টাংশগুলিতে কোনও ধরণ বা প্রবণতার কোনও সুন্দর, স্পষ্ট অভাব কী হওয়া উচিত:

plot(x, m1$residuals)

"Y ~ টাইম + এক্স" এর একটি সাধারণ মডেল যার সাথে অর্ডার 1 এর একটি অটোরিগ্রেসিভ পারস্পরিক সম্পর্ক রয়েছে A

m2 <- gls(y ~ time + x, correlation = corAR1(form=~time), method="REML")
AIC(m1,m2)

যাইহোক, মডেলটির এখনও প্রায় অভিন্ন 'অস্থায়ী' স্বতঃআরঙ্কিত অবশিষ্টাংশগুলি প্রদর্শন করা উচিত:

plot(time, m2$residuals)

কোন পরামর্শের জন্য আপনাকে অনেক ধন্যবাদ।


আপনার মডেলটি চক্রগুলির কারণে সময় নির্ভরতা (এমনকি আপনার সিমুলেটেড কেসের জন্যও) যথাযথভাবে ক্যাপচার করে না, সুতরাং আপনার ' নির্ভুলভাবে অ্যাকাউন্টের ' বৈশিষ্ট্যটি উপযুক্ত নয়। আপনার অবশিষ্টাংশগুলিতে এখনও প্যাটার্ন থাকার কারণ সম্ভবত এটি।
গ্লেন_বি -রিনস্টেট মনিকা

আমি মনে করি আপনি এটি পিছনের দিকে আছে। আরইএমএল না করে সম্পূর্ণ সর্বাধিক সম্ভাবনা ব্যবহার করে অনুমান করা উচিত। সম্ভাবনা অনুপাতের পরীক্ষা করার জন্য পদ্ধতি = "এমএল" নির্বাচন করা প্রয়োজনীয় এবং যদি আপনি বিভিন্ন ভবিষ্যদ্বাণীকের সাথে মডেলগুলির তুলনা করতে এআইসি ব্যবহার করতে চান তবে প্রয়োজনীয়। আরএমএল এমএল-এর তুলনায় ভেরিয়েন্স উপাদান এবং মান ত্রুটির আরও ভাল অনুমান সরবরাহ করে। বিভিন্ন মডেলের তুলনা করার জন্য পদ্ধতি = "এমএল" ব্যবহার করা কখনও কখনও প্রস্তাব দেওয়া হয় যে পদ্ধতি = "আরএমএল" ব্যবহার করে চূড়ান্ত মডেলটিকে রিফিট করা উচিত এবং আরএমএল ফিট থেকে প্রাপ্ত প্রাক্কলন এবং মান ত্রুটিগুলি চূড়ান্ত অনুমানের জন্য ব্যবহার করা উচিত।
বনাঞ্চল বিজ্ঞানী

উত্তর:


24

চতুর্থাংশ 1

আপনি এখানে দুটি জিনিস ভুল করছেন। প্রথমটি একটি সাধারণভাবে খারাপ জিনিস; সাধারণভাবে মডেল অবজেক্টগুলিতে ডুবে না এবং উপাদানগুলি ছিঁড়ে ফেলে। এই ক্ষেত্রে এক্সট্রাক্টর ফাংশনগুলি ব্যবহার করতে শিখুন resid()। এই ক্ষেত্রে আপনি কিছু দরকারী পাচ্ছেন কিন্তু যদি আপনি এই ধরনের থেকে একটি GLM যেমন মডেল বস্তুর একটি ভিন্ন প্রকার, ছিল glm(), তবে mod$residualsধারণ করবে কাজ পুনরাবৃত্তির গত IRLS থেকে অবশিষ্টাংশ এবং কিছু আপনি সাধারণত না চান!

দ্বিতীয়টি যা আপনি ভুল করছেন তা হ'ল এমন কিছু যা আমাকেও ধরা দিয়েছে। আপনি যে অবশিষ্টাংশগুলি উত্তোলন করেছেন (এবং আপনি যদি ব্যবহার করেন তবে এটিও বের করে দিত resid()) হ'ল কাঁচা বা প্রতিক্রিয়ার অবশিষ্টাংশ। মূলত এটি কেবল স্থির প্রভাবগুলির শর্তাদি বিবেচনায় ফিটেড মান এবং প্রতিক্রিয়াটির পর্যবেক্ষণকৃত মানগুলির মধ্যে পার্থক্য । এই মানগুলির মধ্যে একই অবশিষ্টাংশের স্বতঃসংশোধন থাকবে m1কারণ স্থির প্রভাবগুলি (বা আপনি যদি পছন্দ করেন তবে লিনিয়ার পূর্বাভাসকারী) দুটি মডেলের ( ~ time + x) তে একই ।

আপনার নির্দিষ্ট সম্পর্কের শব্দটি অন্তর্ভুক্ত করে রেসিডুয়ালগুলি পেতে, আপনার স্বাভাবিকীকরণের অবশিষ্টাংশ প্রয়োজন । আপনি এগুলি পেয়েছেন:

resid(m1, type = "normalized")

এটি (এবং উপলব্ধ অন্যান্য ধরণের রেসিডুয়ালগুলি) এতে বর্ণিত হয়েছে ?residuals.gls:

type: an optional character string specifying the type of residuals
      to be used. If ‘"response"’, the "raw" residuals (observed -
      fitted) are used; else, if ‘"pearson"’, the standardized
      residuals (raw residuals divided by the corresponding
      standard errors) are used; else, if ‘"normalized"’, the
      normalized residuals (standardized residuals pre-multiplied
      by the inverse square-root factor of the estimated error
      correlation matrix) are used. Partial matching of arguments
      is used, so only the first character needs to be provided.
      Defaults to ‘"response"’.

তুলনার মাধ্যমে, এখানে কাঁচা (প্রতিক্রিয়া) এবং সাধারণীকরণের অবশিষ্টাংশের এসিএফ রয়েছে

layout(matrix(1:2))
acf(resid(m2))
acf(resid(m2, type = "normalized"))
layout(1)

এখানে চিত্র বর্ণনা লিখুন

এটি কেন ঘটছে তা দেখার জন্য, এবং যেখানে কাঁচা অবশিষ্টাংশগুলি পরস্পর সম্পর্কিত শব্দটি অন্তর্ভুক্ত করে না, আপনি যে মডেলটি ফিট করেছিলেন তা বিবেচনা করুন

Y=β0+ +β1টিআমিমি+ +β2এক্স+ +ε

কোথায়

ε~এন(0,σ2Λ)

Λρ^ρ||

কাঁচা অবশিষ্টাংশ, ডিফল্টরূপে ফিরে resid(m2)আসা কেবল লিনিয়ার পূর্বাভাসকারী অংশ থেকে আসে, তাই এই বিট থেকে

β0+ +β1টিআমিমি+ +β2এক্স

Λ

Q2 এর

দেখে মনে হচ্ছে আপনি একটি রৈখিক ক্রিয়াকলাপের সাথে একটি অ-রৈখিক প্রবণতা ফিট করতে চেষ্টা করছেন এবং timeএকটি এআর (1) (বা অন্যান্য কাঠামো) দিয়ে "ট্রেন্ড" এর সাথে ফিট না হওয়ার জন্য অ্যাকাউন্ট করছেন। আপনার ডেটা যদি আপনি এখানে দেওয়া উদাহরণের মতো কিছু হয় তবে covariates এর মসৃণ ফাংশনটি মঞ্জুর করার জন্য আমি একটি GAM ফিট করব। এই মডেল হবে

Y=β0+ +1(টিআমিমি)+ +2(এক্স)+ +ε

Λ=আমি

library("mgcv")
m3 <- gam(y ~ s(time) + s(x), select = TRUE, method = "REML")

যেখানে select = TRUEমডেলটিকে শর্তগুলির মধ্যে থেকে মডেলটিকে সরিয়ে দেওয়ার জন্য কিছু অতিরিক্ত সংকোচন প্রয়োগ করা হয়।

এই মডেল দেয়

> summary(m3)

Family: gaussian 
Link function: identity 

Formula:
y ~ s(time) + s(x)

Parametric coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  23.1532     0.7104   32.59   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Approximate significance of smooth terms:
          edf Ref.df      F  p-value    
s(time) 8.041      9 26.364  < 2e-16 ***
s(x)    1.922      9  9.749 1.09e-14 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

এবং এর মত দেখতে মসৃণ পদ রয়েছে:

এখানে চিত্র বর্ণনা লিখুন

এই মডেলের অবশিষ্টাংশগুলি আরও ভাল আচরণ করা হয় (কাঁচা অবশিষ্টাংশ)

acf(resid(m3))

এখানে চিত্র বর্ণনা লিখুন

এখন সাবধানতার একটি শব্দ; স্মুথ টাইম সিরিজটিতে একটি সমস্যা রয়েছে যে পদ্ধতিগুলি যেগুলি নির্ধারণ করে যে কার্যকরীগুলি কতটা মসৃণ বা দ্বিধাদ্বন্দ্বপূর্ণ তা ধরে নিয়েছে যে ডেটা স্বাধীন। ব্যবহারিক শর্তাদির অর্থ এর অর্থ হ'ল সময়ের মসৃণ ফাংশন s(time)এমন তথ্যের সাথে খাপ খায় যা সত্যই এলোমেলোভাবে স্বতঃসংশ্লিষ্ট ত্রুটি এবং কেবল অন্তর্নিহিত প্রবণতা নয়। অতএব সময় স্মরণে সময় সিরিজের ডেটা ফিটিং করার সময় আপনার খুব সতর্কতা অবলম্বন করা উচিত।

এর চারপাশে বেশ কয়েকটি উপায় রয়েছে তবে একটি উপায় হ'ল মডেলটির ফিটিংয়ে স্যুইচ করা gamm()যার মাধ্যমে lme()অভ্যন্তরীণভাবে কল হয় এবং যা আপনাকে মডেলের correlationজন্য যে যুক্তিটি ব্যবহার করেছেন তা ব্যবহার করতে দেয় gls()। এখানে একটি উদাহরণ

mm1 <- gamm(y ~ s(time, k = 6, fx = TRUE) + s(x), select = TRUE,
            method = "REML")
mm2 <- gamm(y ~ s(time, k = 6, fx = TRUE) + s(x), select = TRUE,
            method = "REML", correlation = corAR1(form = ~ time))

s(time)s(time)ρ=0s(time)ρ>>.5

এআর (1) সহ মডেলটি এআর (1) ছাড়াই মডেলের তুলনায় উল্লেখযোগ্য উন্নতির প্রতিনিধিত্ব করে না:

> anova(mm1$lme, mm2$lme)
        Model df      AIC      BIC    logLik   Test   L.Ratio p-value
mm1$lme     1  9 301.5986 317.4494 -141.7993                         
mm2$lme     2 10 303.4168 321.0288 -141.7084 1 vs 2 0.1817652  0.6699

আমরা যদি \ \ টুপি \ rho} for এর অনুমানটি দেখি তবে আমরা দেখতে পাই

> intervals(mm2$lme)
....

 Correlation structure:
         lower      est.     upper
Phi -0.2696671 0.0756494 0.4037265
attr(,"label")
[1] "Correlation structure:"

Phiρρ


গ্যাভিনকে সেই দুর্দান্ত, গভীরতর বিস্তারিত উত্তরের জন্য আপনাকে অনেক ধন্যবাদ। দেখে মনে হচ্ছে আমার ডেটা জিএএমগুলির সাথে একটি গুণগতভাবে অনুরূপ ফলাফল এনেছে, যেখানে স্ট্যান্ডার্ড পারস্পরিক সম্পর্ক কাঠামোর সাথে এবং ছাড়া কোনও জিএএম তুলনা করার সময় খুব সামান্য উন্নতি হয় বা ফিটের (এআইসি / এআইসিসির মাধ্যমে মূল্যায়ন) আরও খারাপ হয় wors আপনি / কেউ কি জানেন: যদি ডেটা / অবশিষ্টাংশগুলিতে খুব স্পষ্ট, যদি অনিয়মিত, চক্রীয় প্রবণতা থাকে তবে কি কোনও মডেল না রেখে সর্বাধিক উপযুক্ত ফিটনেস সম্পর্কের কাঠামো ধরে রাখা সবচেয়ে উপযুক্ত হবে? আবার ধন্যবাদ.
বৃহস্পতিএম 104

1
অতি দেরিতে আসছেন, তবে এই দুর্দান্ত প্রতিক্রিয়ার জন্য গ্যাভিনকে ধন্যবাদ জানাতে চেয়েছিলেন। আমাকে এক টন সাহায্য করেছে।
জিরাফেরে
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.