লিনিয়ার মডেলের আয়াতগুলিতে আর-স্কোয়ারটি সাধারণ রেখাযুক্ত মডেলটির বিচ্যুতি?


14

এই প্রশ্নের জন্য এখানে আমার প্রসঙ্গ: আমি যা বলতে পারি তা থেকে, ভারী ডেটা এবং surveyপ্যাকেজটি ব্যবহার করার সময় আমরা আর মধ্যে কোনও সাধারণ সর্বনিম্ন স্কোয়ার রিগ্রেশন চালাতে পারি না । এখানে, আমাদের ব্যবহার করতে হবে svyglm(), যা পরিবর্তে একটি সাধারণীকরণীয় রৈখিক মডেল চালায় (যা একই জিনিস হতে পারে? আমি এখানে ভিন্ন কি তার নিরিখে अस्पष्ट)।

ওএলএস এবং lm()ফাংশনের মাধ্যমে এটি একটি আর-স্কোয়ার্ড মান গণনা করে, যার ব্যাখ্যা আমি বুঝতে পারি। তবে svyglm()এটি গণনা করার মতো বলে মনে হচ্ছে না এবং এর পরিবর্তে আমাকে একটি ডিভিয়েশন দেয় যা ইন্টারনেট সম্পর্কে আমার সংক্ষিপ্ত ট্রিপটি আমাকে বলে দেয় যে ভালতা-ফিট-মাপ যা কোনও আর-স্কোয়ারের চেয়ে আলাদাভাবে ব্যাখ্যা করা হয়।

সুতরাং আমি অনুমান করি যে আমার কাছে মূলত দুটি প্রশ্ন রয়েছে যার উপর আমি কিছু দিকনির্দেশ পাওয়ার আশা করছিলাম:

  1. আমরা কেন surveyপ্যাকেজে ওএলএস চালাতে পারি না , যখন মনে হয় স্টাটাতে ভারী ডেটা দিয়ে এটি করা সম্ভব?
  2. একটি সাধারণীকরণীয় রৈখিক মডেল এবং একটি r-স্কোয়ার্ড মান এর বিচ্যুতি মধ্যে ব্যাখ্যা মধ্যে পার্থক্য কি?

2
একটি ভাল প্রশ্নের জন্য @ রিচার্ডব্ল্যাসেট, +1 সাইটে আপনাকে স্বাগতম। ওএলএস রিগ্রেশন সাধারণ রৈখিক মডেলের একটি বিশেষ কেস, যেখানে লিঙ্ক ফাংশনটি পরিচয় ফাংশন এবং প্রতিক্রিয়া বিতরণ স্বাভাবিক (আমার উত্তর এখানে দেখুন: আরও তথ্যের জন্য পার্থক্য-লজিট এবং প্রবিট-মডেলগুলি )। জিএলআইএমগুলির জন্য 'সিউডো-আর 2' রয়েছে তবে তারা বিতর্কিত (এখানে দেখুন: কোন তথ্যের জন্য লজস্টিক -রিগ্রেশন-এর জন্য সিউডো-আর 2-কে-রিপোর্ট করুন )।
গুং - মনিকা পুনরায়

1
আপনার মন্তব্যের জন্য অনেক ধন্যবাদ (এবং দুঃখিত যে আমার প্রতিক্রিয়া জানাতে এত দিন লেগেছে ... আমি এই প্রশ্নটি হারিয়েছি এবং পুরোপুরি ভুলে গিয়েছিলাম যে আমি এটিকে রাখিনি)। ধন্যবাদ এটি একটি বিস্ময়কর দম্পতি ছিল, ধন্যবাদ। আমি আমার প্রশ্নটি অনুমান করি তবে এটি কি: আমি ধরে নিই যে এই পরিসংখ্যান প্যাকেজগুলি ওএলএস চালায় না কারণ জরিপ-ওজনযুক্ত ডেটা সহ এটি চালানোর ক্ষেত্রে কিছু মৌলিক সমস্যা রয়েছে। আমি অবশ্য বিষয়টি বুঝতে পারি না যে বিষয়টি কী।
রিকিবি

1
ডিভ্যান্স হ'ল পরিবর্তনের একটি সাধারণীকরণ, এবং প্রত্যাশিত বিচ্যুতিটি আর-স্কোয়ারের একটি সাধারণীকরণ। সমস্যাটি হ'ল প্রত্যাশিত বিচ্যুতির
নকিমভ

উত্তর:


2

আমি যা বলতে পারি তা থেকে, ভারী ডেটা এবং surveyপ্যাকেজটি ব্যবহার করার সময় আমরা আর কোনও সাধারণ সর্বনিম্ন স্কোয়ার রিগ্রেশন চালাতে পারি না । এখানে, আমাদের ব্যবহার করতে হবে svyglm(), যা পরিবর্তে একটি সাধারণীকরণীয় রৈখিক মডেল চালায় (যা একই জিনিস হতে পারে? আমি এখানে ভিন্ন কি তার নিরিখে अस्पष्ट)।

svyglmযদি আপনি ব্যবহার করেন family = gaussian()যা জরিপের ভিগনেট (সংস্করণে 3.32-1) থেকে ডিফল্ট বলে মনে হয় আপনি লিনিয়ার মডেল দেবেন । উদাহরণটি দেখুন যেখানে তারা সন্ধান করে regmodel

মনে হচ্ছে যে প্যাকেজ ঠিক নিশ্চিত করুন যে আপনি সঠিক ওজন যখন এটি কল ব্যবহার করে তোলে glm। সুতরাং, যদি আপনার ফলাফল অবিরত থাকে এবং আপনি ধরে নেন যে এটি সাধারণত আইড বিতরণ করা হয় তবে আপনার ব্যবহার করা উচিত family = gaussian()। ফলাফলটি ভারিত লিনিয়ার মডেল is এই উত্তর

আমরা কেন surveyপ্যাকেজে ওএলএস চালাতে পারি না , যখন মনে হয় স্টাটাতে ভারী ডেটা দিয়ে এটি করা সম্ভব?

surveyপ্যাকেজটির সাহায্যে আপনি এটি করতে পারেন তা উল্লেখ করে । নিম্নলিখিত প্রশ্ন হিসাবে

একটি সাধারণীকরণীয় রৈখিক মডেল এবং একটি r-স্কোয়ার্ড মান এর বিচ্যুতি মধ্যে ব্যাখ্যা মধ্যে পার্থক্য কি?

কিছু লোক মন্তব্যে উল্লেখ করেছেন বলে পাওয়ার জন্য একটি সোজা ফরোয়ার্ড সূত্র রয়েছে । ওজন যুক্ত করা নিচের মতো দেখায় তেমন কোনও পরিবর্তন হয় নাR2family = gaussian()

> set.seed(42293888)
> x <- (-4):5
> y <- 2 + x + rnorm(length(x))
> org <- data.frame(x = x, y = y, weights = 1:10)
> 
> # show data and fit model. Notice the R-squared
> head(org) 
   x          y weights
1 -4  0.4963671       1
2 -3 -0.5675720       2
3 -2 -0.3615302       3
4 -1  0.7091697       4
5  0  0.6485203       5
6  1  3.8495979       6
> summary(lm(y ~ x, org, weights = weights))

Call:
lm(formula = y ~ x, data = org, weights = weights)

Weighted Residuals:
    Min      1Q  Median      3Q     Max 
-3.1693 -0.4463  0.2017  0.9100  2.9667 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   1.7368     0.3514   4.942  0.00113 ** 
x             0.9016     0.1111   8.113 3.95e-05 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Residual standard error: 2.019 on 8 degrees of freedom
Multiple R-squared:  0.8916,    Adjusted R-squared:  0.8781 
F-statistic: 65.83 on 1 and 8 DF,  p-value: 3.946e-05

> 
> # make redundant data set with redundant rows
> idx <- unlist(mapply(rep, x = 1:nrow(org), times = org$weights))
> org_redundant <- org[idx, ]
> head(org_redundant)
     x          y weights
1   -4  0.4963671       1
2   -3 -0.5675720       2
2.1 -3 -0.5675720       2
3   -2 -0.3615302       3
3.1 -2 -0.3615302       3
3.2 -2 -0.3615302       3
> 
> # fit model and notice the same R-squared
> summary(lm(y ~ x, org_redundant))

Call:
lm(formula = y ~ x, data = org_redundant)

Residuals:
     Min       1Q   Median       3Q      Max 
-1.19789 -0.29506 -0.05435  0.33131  2.36610 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  1.73680    0.13653   12.72   <2e-16 ***
x            0.90163    0.04318   20.88   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Residual standard error: 0.7843 on 53 degrees of freedom
Multiple R-squared:  0.8916,    Adjusted R-squared:  0.8896 
F-statistic: 436.1 on 1 and 53 DF,  p-value: < 2.2e-16

> 
> # glm gives you the same with family = gaussian()  
> # just compute the R^2 from the deviances. See 
> #   /stats//a/46358/81865
> fit <- glm(y ~ x, family = gaussian(), org_redundant)
> fit$coefficients
(Intercept)           x 
  1.7368017   0.9016347 
> 1 - fit$deviance / fit$null.deviance
[1] 0.8916387

আপনি যখন ব্যবহার করবেন তখন বিচ্যুতিটি স্কোয়ার ত্রুটির যোগফল family = gaussian()

আদেশ সহকারে

আমি ধরে নিলাম যে আপনি আপনার প্রশ্ন থেকে একটি রৈখিক মডেল চান। তদ্ব্যতীত, আমি surveyপ্যাকেজটি কখনও ব্যবহার করি নি তবে দ্রুত এটির মাধ্যমে স্ক্যান করেছি এবং আমার উত্তরে আমি যা উল্লেখ করি তা কী করে তা নিয়ে অনুমান করা যায়।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.