একটি গ্যাম ফিটের সংক্ষিপ্তসার


12

আমরা যদি কোনও গ্যামের মতো ফিট করি তবে:

gam.fit = gam::gam(Outstate ~ Private + s(Room.Board, df = 2) + s(PhD, df = 2) + 
    s(perc.alumni, df = 2) + s(Expend, df = 5) + s(Grad.Rate, df = 2), data = College)

কোথায়, আমরা ডেটাসেট ব্যবহার করি Collegeযা প্যাকেজের ভিতরে পাওয়া যায় ISLR
এখন, আমরা যদি এই ফিটের সংক্ষিপ্তসারটি পাই তবে আমরা এটি দেখতে পারি:

> summary(gam.fit)

Call: gam(formula = Outstate ~ Private + s(Room.Board, df = 2) + s(PhD, 
    df = 2) + s(perc.alumni, df = 2) + s(Expend, df = 5) + s(Grad.Rate, 
    df = 2), data = College)
Deviance Residuals:
     Min       1Q   Median       3Q      Max 
-7522.66 -1140.99    55.18  1287.51  7918.22 

(Dispersion Parameter for gaussian family taken to be 3475698)

    Null Deviance: 12559297426 on 776 degrees of freedom
Residual Deviance: 2648482333 on 762.0001 degrees of freedom
AIC: 13924.52 

Number of Local Scoring Iterations: 2 

Anova for Parametric Effects
                        Df     Sum Sq    Mean Sq F value    Pr(>F)    
Private                  1 3377801998 3377801998 971.834 < 2.2e-16 ***
s(Room.Board, df = 2)    1 2484460409 2484460409 714.809 < 2.2e-16 ***
s(PhD, df = 2)           1  839368837  839368837 241.496 < 2.2e-16 ***
s(perc.alumni, df = 2)   1  509679160  509679160 146.641 < 2.2e-16 ***
s(Expend, df = 5)        1 1019968912 1019968912 293.457 < 2.2e-16 ***
s(Grad.Rate, df = 2)     1  148052210  148052210  42.596 1.227e-10 ***
Residuals              762 2648482333    3475698                      
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Anova for Nonparametric Effects
                       Npar Df Npar F   Pr(F)    
(Intercept)                                      
Private                                          
s(Room.Board, df = 2)        1  3.480 0.06252 .  
s(PhD, df = 2)               1  1.916 0.16668    
s(perc.alumni, df = 2)       1  1.471 0.22552    
s(Expend, df = 5)            4 34.350 < 2e-16 ***
s(Grad.Rate, df = 2)         1  1.981 0.15971    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

এখানে, "প্যারামেট্রিক প্রভাবগুলির জন্য আনোভা" পাশাপাশি "অ-প্যারাম্যাট্রিক প্রভাবগুলির জন্য আনোভা" অংশটির অর্থ বুঝতে পারি না। যদিও আমি আনোভা পরীক্ষার কাজ জানি না, তবে আমি "প্যারাম্যাট্রিক প্রভাব" এবং "প্যারাম্যাট্রিক প্রভাবগুলি" সারাংশের অংশটি বুঝতে পারি না o সুতরাং, এর অর্থ কী? তাদের তাত্পর্য কী?


এই উত্তরটি (ডি) অংশের কারণে এই প্রশ্নটি উঠেছিল , 10 নম্বরের, পরিসংখ্যানগত শিক্ষার সূচনার অধ্যায় 7 এর জন্য

উত্তর:


22

ফিটিং জিএএমএস-এর এই পদ্ধতির আউটপুটটি যেভাবে কাঠামোবদ্ধ করা হয়েছে তা হল অন্যান্য প্যারামিটারিক পদগুলির সাথে স্মুথারগুলির লিনিয়ার অংশগুলি গ্রুপ করা। নোটিশের Privateপ্রথম টেবিলটিতে একটি এন্ট্রি রয়েছে তবে এটিতে দ্বিতীয় এন্ট্রি খালি রয়েছে। এটি কারণ Privateএকটি কঠোরভাবে প্যারাম্যাট্রিক শব্দ; এটি একটি ফ্যাক্টর ভেরিয়েবল এবং তাই এটি একটি অনুমিত প্যারামিটারের সাথে সম্পর্কিত যা এর প্রভাবকে উপস্থাপন করে Private। মসৃণ পদগুলি দুটি ধরণের প্রভাবের মধ্যে বিভক্ত হওয়ার কারণ হ'ল এই আউটপুটটি আপনাকে কোনও মসৃণ পদ আছে কিনা তা সিদ্ধান্ত নিতে দেয়

  1. একটি ননরেখা প্রভাব : ননপ্যারমেট্রিক টেবিলটি দেখুন এবং তাত্পর্যটি মূল্যায়ন করুন। যদি তাৎপর্য হয় তবে একটি মসৃণ ননলাইনার প্রভাব হিসাবে ছেড়ে যান। তুচ্ছ হলে লিনিয়ার এফেক্টটি বিবেচনা করুন (নীচে ২)
  2. একটি লিনিয়ার এফেক্ট : প্যারামিট্রিক টেবিলটি দেখুন এবং লিনিয়ার এফেক্টের তাত্পর্যটি মূল্যায়ন করুন। যদি তাৎপর্যপূর্ণ হয় তবে আপনি মডেলটি বর্ণনা করার সূত্রে এই শব্দটিকে একটি মসৃণ s(x)-> xএ রূপান্তর করতে পারেন । তুচ্ছ হলে আপনি পুরোপুরি মডেলটি থেকে শব্দটি বাদ দেওয়ার বিষয়টি বিবেচনা করতে পারেন (তবে এটির সাথে সাবধানতা অবলম্বন করুন --- এটি একটি দৃ statement় বক্তব্যের সমান যে সত্যিকারের প্রভাব == 0)।

প্যারামেট্রিক টেবিল

এখানে এন্ট্রিগুলি হ'ল আপনি কী পেতে চাইলে যদি আপনি এইটিকে একটি লিনিয়ার মডেল ফিট করে এবং আনোভা টেবিলটি গণনা করেন তবে কোনও সম্পর্কিত মডেল সহগের জন্য কোনও অনুমান দেখানো হয় না। অনুমান সহগ এবং মান ত্রুটিগুলি এবং সম্পর্কিত টি বা ওয়াল্ড পরীক্ষার পরিবর্তে, বি পরীক্ষার পরিমাণগুলি (স্কোয়ারের পরিমাণের ক্ষেত্রে) ব্যাখ্যা করা হয়েছে এবং এফ পরীক্ষার পাশাপাশি প্রদর্শিত হয়। একাধিক covariates (বা covariates এর ফাংশন) দিয়ে সজ্জিত অন্যান্য রিগ্রেশন মডেলগুলির মতো, সারণীতে থাকা এন্ট্রিগুলি মডেলের অন্যান্য শর্তাদি / ক্রিয়া অনুসারে শর্তযুক্ত।

ননপ্যারমেট্রিক টেবিল

Nonparametric প্রভাব smoothers লাগানো এর অরৈখিক অংশের সঙ্গে সম্পর্কযুক্ত। এর ননলাইনাল প্রভাব ব্যতীত এই ননলাইনারের প্রভাবগুলি উল্লেখযোগ্য Expend। এর অ-লাইন প্রভাবের কিছু প্রমাণ রয়েছে Room.Board। এগুলির প্রতিটি স্বাধীনতা ( Npar Df) এর কিছু সংখ্যক নন-প্যারাম্যাট্রিক ডিগ্রির সাথে সম্পর্কিত এবং তারা প্রতিক্রিয়াতে বিভিন্ন পরিমাণের ব্যাখ্যা দেয়, যার পরিমাণ একটি এফ পরীক্ষার মাধ্যমে মূল্যায়ন করা হয় (ডিফল্টরূপে, যুক্তি দেখুন test)।

ননপ্যারমেট্রিক বিভাগে এই পরীক্ষাগুলি একটি অরৈখিক সম্পর্কের পরিবর্তে রৈখিক সম্পর্কের নাল অনুমানের পরীক্ষা হিসাবে ব্যাখ্যা করা যেতে পারে

আপনি যেভাবে এটি ব্যাখ্যা করতে পারবেন তা হ'ল কেবল Expendপরোয়ানাগুলিকে একটি মসৃণ ননলাইন প্রভাব হিসাবে বিবেচনা করা হচ্ছে। অন্যান্য স্মুথগুলি লিনিয়ার প্যারামিমেট্রিক পদগুলিতে রূপান্তরিত হতে পারে। আপনি যদি Room.Boardঅন্য মসৃণগুলিকে রৈখিক, প্যারাম্যাট্রিক পদগুলিতে রূপান্তর করেন তবে মসৃণটির অ-তাত্পর্যহীন অ-প্যারামিট্রিক প্রভাব থাকতে পারে তা আপনি দেখতে চাইতে পারেন ; এটির প্রভাবটি Room.Boardকিছুটা অরেখর হতে পারে তবে এটি মডেলটিতে অন্যান্য মসৃণ পদগুলির উপস্থিতি দ্বারা প্রভাবিত হচ্ছে।

তবে এর অনেক কিছুই এই সত্যের উপর নির্ভর করে যে অনেক স্মুথকে কেবল মাত্র 2 ডিগ্রি স্বাধীনতা ব্যবহারের অনুমতি দেওয়া হয়েছিল; 2 কেন?

স্বয়ংক্রিয় মসৃণতা নির্বাচন

ফিটিং জিএএম-এর আরও নতুন পদ্ধতির প্রস্তাবিত প্যাকেজ এমজিসিভিতে প্রয়োগ করা সাইমন কাঠের দন্ডিত স্প্লাইন পদ্ধতির মতো স্বয়ংক্রিয় মসৃণতা নির্বাচনের পদ্ধতির মাধ্যমে আপনার জন্য স্বাচ্ছন্দ্যের মাত্রা বেছে নেবে :

data(College, package = 'ISLR')
library('mgcv')

set.seed(1)
nr <- nrow(College)
train <- with(College, sample(nr, ceiling(nr/2)))
College.train <- College[train, ]
m <- mgcv::gam(Outstate ~ Private + s(Room.Board) + s(PhD) + s(perc.alumni) + 
               s(Expend) + s(Grad.Rate), data = College.train,
               method = 'REML')

মডেল সংক্ষিপ্তসার আরও সংক্ষিপ্ত এবং লিনিয়ার (প্যারামেট্রিক) এবং ননলাইনার (ননপ্যারামেট্রিক) অবদানের চেয়ে মসৃণ ফাংশনটিকে সরাসরি সামগ্রিকভাবে বিবেচনা করে:

> summary(m)

Family: gaussian 
Link function: identity 

Formula:
Outstate ~ Private + s(Room.Board) + s(PhD) + s(perc.alumni) + 
    s(Expend) + s(Grad.Rate)

Parametric coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   8544.1      217.2  39.330   <2e-16 ***
PrivateYes    2499.2      274.2   9.115   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Approximate significance of smooth terms:
                 edf Ref.df      F  p-value    
s(Room.Board)  2.190  2.776 20.233 3.91e-11 ***
s(PhD)         2.433  3.116  3.037 0.029249 *  
s(perc.alumni) 1.656  2.072 15.888 1.84e-07 ***
s(Expend)      4.528  5.592 19.614  < 2e-16 ***
s(Grad.Rate)   2.125  2.710  6.553 0.000452 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

R-sq.(adj) =  0.794   Deviance explained = 80.2%
-REML = 3436.4  Scale est. = 3.3143e+06  n = 389

এখন আউটপুটটি মসৃণ শর্তাদি এবং প্যারাম্যাট্রিক পদগুলিকে পৃথক সারণিতে একত্রিত করে, পরেরটি লিনিয়ার মডেলের মতো আরও পরিচিত আউটপুট পাবে। মসৃণ পদগুলি সম্পূর্ণ প্রভাব নীচের সারণীতে প্রদর্শিত হয়। আপনার প্রদর্শিত gam::gamমডেলের জন্য এগুলি একই পরীক্ষা নয় ; এগুলি নাল অনুমানের বিরুদ্ধে পরীক্ষা করা হয় যে মসৃণ প্রভাবটি একটি সমতল, অনুভূমিক রেখা, নাল প্রভাব বা শূন্য প্রভাব প্রদর্শন করে। বিকল্পটি হ'ল সত্য ননলাইনার প্রভাবটি শূন্যের থেকে পৃথক।

লক্ষ্য করুন যে ইডিএফগুলি 2 ব্যতীত সমস্ত বড় s(perc.alumni), প্রস্তাবিত যে gam::gamমডেলটি কিছুটা সীমাবদ্ধ হতে পারে।

তুলনা জন্য লাগানো মসৃণ দ্বারা দেওয়া হয়

plot(m, pages = 1, scheme = 1, all.terms = TRUE, seWithMean = TRUE)

যা উত্পাদন করে

এখানে চিত্র বর্ণনা লিখুন

স্বয়ংক্রিয় মসৃণতা নির্বাচনটি পুরোপুরি মডেলের বাইরে সঙ্কুচিত শর্তাদির সাথেও বেছে নেওয়া যেতে পারে:

এটি সম্পন্ন করার পরে, আমরা দেখতে পাচ্ছি যে মডেল ফিটটি আসলেই পরিবর্তিত হয়নি

> summary(m2)

Family: gaussian 
Link function: identity 

Formula:
Outstate ~ Private + s(Room.Board) + s(PhD) + s(perc.alumni) + 
    s(Expend) + s(Grad.Rate)

Parametric coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   8539.4      214.8  39.755   <2e-16 ***
PrivateYes    2505.7      270.4   9.266   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Approximate significance of smooth terms:
                 edf Ref.df      F  p-value    
s(Room.Board)  2.260      9  6.338 3.95e-14 ***
s(PhD)         1.809      9  0.913  0.00611 ** 
s(perc.alumni) 1.544      9  3.542 8.21e-09 ***
s(Expend)      4.234      9 13.517  < 2e-16 ***
s(Grad.Rate)   2.114      9  2.209 1.01e-05 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

R-sq.(adj) =  0.794   Deviance explained = 80.1%
-REML = 3475.3  Scale est. = 3.3145e+06  n = 389

মসৃণতাগুলির সমস্তগুলি স্প্লাইলেসগুলির রৈখিক এবং ননলাইনার অংশ সঙ্কুচিত করার পরেও কিছুটা অল্পলাইন প্রভাবগুলি বলে মনে হচ্ছে।

ব্যক্তিগতভাবে, আমি মিগ্যাসিভি থেকে আউটপুটটি ব্যাখ্যা করা আরও সহজ খুঁজে পেয়েছি এবং কারণ এটি প্রদর্শিত হয়েছে যে যদি স্বয়ংক্রিয় মসৃণতা নির্বাচনের পদ্ধতিগুলি ডেটা দ্বারা সমর্থিত হয় তবে লিনিয়ার এফেক্টের সাথে মানায়


4
+1 দুর্দান্ত ব্যাখ্যা। (আমি জানতে আগ্রহী আপনি যদি একটি দ্বারা কি বোঝাতে চেয়েছেন আছি "nonparametric এফ পরীক্ষা," যদিও: কিভাবে এটা সব, একটি মান এফ পরীক্ষা থেকে পৃথক করবে?)
whuber

4
@ হুবুহু এটি কেবল দুর্বল বাক্য; এটি একটি স্ট্যান্ডার্ড এফ পরীক্ষা, তবে লিনিয়ার এবং ননলাইনার অংশগুলিতে মসৃণগুলির পচনের কারণে এগুলি আউটপুটটিকে "ননপ্যারমেট্রিক" বিট বলে তার পরীক্ষা করে tests আমি এটি সম্পাদনা করব।
মনিকা পুনরায় ইনস্টল করুন - জি সিম্পসন

3
পি-মানগুলি সেভাবে কাজ করে না; এমনকি পরীক্ষাটি সম্পাদন করার জন্য, আমরা ধরে নিয়েছি যে নাল অনুমানটি সত্য । এই পরীক্ষাটি যা বলছে তা হচ্ছে, ধরুন যে সম্পর্কটি লৈঙ্গিক, সেই অনুমানের সাথে দ্বন্দ্বের মধ্যে কতটা দ্বন্দ্ব রয়েছে যে তথ্য উপাত্ত দ্বারা প্রমাণিত হয়েছে? যদি ডেটা নিয়ে আসা প্রমাণগুলি যদি নলের সাথে সত্য হয় তবে আমরা যা প্রত্যাশা করি তার সাথে সামঞ্জস্যপূর্ণ। যদি প্রমাণগুলি নাল অনুমানের সাথে সঙ্গতিপূর্ণ না হয় তবে নালটি সত্য হলে আমরা যে তথ্যগুলি দিয়েছিলাম তা পর্যবেক্ষণ করার সম্ভাবনা কম। পি মানটি শূন্যের বিরুদ্ধে প্রমাণের একটি পরিমাপ।
মনিকা পুনরায় ইনস্টল করুন - জি। সিম্পসন

1
আপনি প্যারাম্যাট্রিক টেবিল সম্পর্কে বলেছেন: "আপনি যদি এটিকে রৈখিক মডেল হিসাবে ফিট করে এবং আনোভা টেবিলটি গণনা করেন তবে এখানে প্রবেশগুলি অবশ্যই পাবেন get" আমি ধরে নিলাম এটি আক্ষরিকভাবে সত্য নয় (অর্থাত্ মডেলটির ননলাইনার অংশটি লিনিয়ার অংশের জন্য তাত্পর্য অনুমানকে মোটেই প্রভাবিত করে না)। অবশ্যই লিনিয়ার এবং ননলাইনার অংশগুলির প্রাক্কলন যৌথভাবে করা হয়, এবং অ-রৈখিক অংশটি লিনিয়ার অংশের সহগের সাথে পাশাপাশি তাত্পর্যটিও প্রভাবিত করে?
জ্যাকব সোলার

1
@ জ্যাকবসোকলার যতদূর আমি বুঝতে পারি, স্প্লাইনটি একটি রৈখিক উপাদান এবং কিছু অ-রৈখিক উপাদানগুলিতে বিচ্ছিন্ন হয়ে যায় (যে সংখ্যাটি স্প্লাইনের জন্য অনুমোদিত স্বাধীনতার ডিগ্রির উপর নির্ভর করে)। আমি যা বোঝাতে চেয়েছি তা হ'ল এই ধরণের আউটপুট যা আপনি আনোভা (লম্বা বর্গক্ষেত্রের জন্য একটি এফ টেস্ট) অনুসরণ করে একটি রৈখিক মডেল ফিট পান। হ্যাঁ, হ্যাঁ, এগুলি এই অর্থে আংশিক প্রভাব যা মডেলটির একটি অংশ দ্বারা ব্যাখ্যা করা বৈকল্পিকতা মডেলটির অন্যান্য শর্তাদি (& ভিত্তি ফাংশন) এর উপর নির্ভর করে। এবং হ্যাঁ, আমি এই উক্তিটি আক্ষরিক অর্থে বোঝাতে চাইনি; আমি "আপনি কি চান ..." তে মন্তব্য করব।
মনিকা পুনরায় ইনস্টল করুন - জি সিম্পসন
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.