GLM আউটপুটে ছড়িয়ে পড়া প্যারামিটার


11

আমি আর তে একটি ঝাঁকুনি চালিয়েছি, এবং summary()আউটপুটটির নীচের দিকে , এটি বলেছে

(Dispersion parameter for gaussian family taken to be 28.35031)

আমি গুগলে কিছুটা রমজিং করেছি এবং শিখেছি যে প্রসারিত পরামিতিটি স্ট্যান্ডার্ড ত্রুটির সাথে মানিয়ে যায়। আমি আশা করছি কেউ ছড়িয়ে যাওয়ার প্যারামিটার কী এবং এর ব্যাখ্যা কীভাবে দেওয়া উচিত সে সম্পর্কে আরও বিশদ সরবরাহ করতে পারে?

উত্তর:


9

এটি অন্বেষণ করার একটি উপায় হ'ল বিভিন্ন সরঞ্জাম ব্যবহার করে একই মডেলটি ফিট করার চেষ্টা করা, এখানে একটি উদাহরণ রয়েছে:

> fit1 <- lm( Sepal.Length ~ ., data=iris )
> fit2 <- glm( Sepal.Length ~ ., data=iris )
> summary(fit1)

Call:
lm(formula = Sepal.Length ~ ., data = iris)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.79424 -0.21874  0.00899  0.20255  0.73103 

Coefficients:
                  Estimate Std. Error t value Pr(>|t|)    
(Intercept)        2.17127    0.27979   7.760 1.43e-12 ***
Sepal.Width        0.49589    0.08607   5.761 4.87e-08 ***
Petal.Length       0.82924    0.06853  12.101  < 2e-16 ***
Petal.Width       -0.31516    0.15120  -2.084  0.03889 *  
Speciesversicolor -0.72356    0.24017  -3.013  0.00306 ** 
Speciesvirginica  -1.02350    0.33373  -3.067  0.00258 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Residual standard error: 0.3068 on 144 degrees of freedom
Multiple R-squared: 0.8673,     Adjusted R-squared: 0.8627 
F-statistic: 188.3 on 5 and 144 DF,  p-value: < 2.2e-16 

> summary(fit2)

Call:
glm(formula = Sepal.Length ~ ., data = iris)

Deviance Residuals: 
     Min        1Q    Median        3Q       Max  
-0.79424  -0.21874   0.00899   0.20255   0.73103  

Coefficients:
                  Estimate Std. Error t value Pr(>|t|)    
(Intercept)        2.17127    0.27979   7.760 1.43e-12 ***
Sepal.Width        0.49589    0.08607   5.761 4.87e-08 ***
Petal.Length       0.82924    0.06853  12.101  < 2e-16 ***
Petal.Width       -0.31516    0.15120  -2.084  0.03889 *  
Speciesversicolor -0.72356    0.24017  -3.013  0.00306 ** 
Speciesvirginica  -1.02350    0.33373  -3.067  0.00258 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

(Dispersion parameter for gaussian family taken to be 0.09414226)

    Null deviance: 102.168  on 149  degrees of freedom
Residual deviance:  13.556  on 144  degrees of freedom
AIC: 79.116

Number of Fisher Scoring iterations: 2

> sqrt( 0.09414226 )
[1] 0.3068261

সুতরাং আপনি দেখতে পারেন যে লিনিয়ার মডেলের অবশিষ্ট স্ট্যান্ডার্ড ত্রুটি গ্ল্যাম থেকে বিচ্ছুরণের মূল বর্গমূল, অন্য কথায় বিচ্ছুরণ (গাউসিয়ান মডেলগুলির জন্য) গড় বর্গ ত্রুটির মতোই।


4

আসুন সরল পরিস্থিতিটি অনুমান করতে পারি যেখানে আপনার ডেটাতে কোনও সমবায়িক তথ্য নেই। বলুন, আপনি শুধু পর্যবেক্ষণ আছে ।Y1,Y2,,YnR

আপনি যদি আপনার ডেটা মডেল করতে সাধারণ বিতরণ ব্যবহার করেন তবে আপনি সম্ভবত এটি লিখবেন

YiN(μ,σ2) ,

এবং তারপরে সম্ভবত সর্বোচ্চ সম্ভাবনার অনুমানের মাধ্যমে এবং অনুমান করার চেষ্টা করুন ।μσ

তবে আসুন আমরা আপনার ডেটা গণনা ডেটা এবং এইভাবে সাধারণত বিতরণ করা হয় না। এটি এই ক্ষেত্রেও অবিচ্ছিন্ন নয়, সুতরাং আপনি এর পরিবর্তে পয়েসন বিতরণ ব্যবহার করতে পারেন:

YiPoisson(λ)

তবে আপনার এখানে একটি মাত্র প্যারামিটার রয়েছে! একক প্যারামিটার এবং দ্বারা উভয় গড় এবং বৈকল্পিক উভয়ই নির্ধারণ করে । আপনি যখন বের্নোল্লি বা দ্বিপদী বিতরণ ব্যবহার করেন তখন এটিও ঘটে। তবে আপনার ডেটাতে আপনার আরও বৃহত্তর বা ছোট বৈকল্পিকতা থাকতে পারে কারণ সম্ভবত পর্যবেক্ষণগুলি সত্যই আইড না হয় বা আপনি যে বিতরণটি পছন্দ করেছেন তা যথেষ্ট বাস্তবসম্মত ছিল না।λE[Yi]=λVar[Yi]=λ

সুতরাং লোকেরা একই সাথে মডেলিংয়ের গড় এবং বৈকল্পিকতায় অতিরিক্ত ডিগ্রি অর্জনের জন্য ছড়িয়ে পড়া প্যারামিটার যুক্ত করে। আমি অনুমান করি যে জিএলএম-এর যে কোনও পাঠ্যপুস্তকটি আপনাকে এটি কী সম্পর্কে আরও বিশদ এবং গাণিতিক ব্যাখ্যা দেবে, তবে আমার অনুপ্রেরণা, আমার বিশ্বাস, এটি বেশ সহজ।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.