Lm এর জন্য ডিফল্ট ডায়াগনস্টিক প্লটগুলির সম্ভাব্য এক্সটেনশনগুলি (আর এবং সাধারণভাবে)?


11

আমি প্লট.এলএম ফাংশনে কিছুটা খনন শুরু করেছি , এই ফাংশনটি এলএমের জন্য ছয়টি প্লট দেয়, তারা হ'ল :

  1. লাগানো মানগুলির বিরুদ্ধে অবশিষ্টাংশের একটি প্লট
  2. লাগানো মানগুলির বিরুদ্ধে স্কয়ার্ট (| অবশিষ্টগুলি |) এর একটি স্কেল-অবস্থানের প্লট
  3. একটি সাধারণ কিউকিউ প্লট, কুকের দূরত্ব বনাম সারি লেবেলের প্লট
  4. উপার্জনের বিরুদ্ধে অবশিষ্টাংশের একটি চক্রান্ত
  5. লিভারেজ / (1-লিভারেজ) এর বিরুদ্ধে কুকের দূরত্বের প্লট

এবং আমি ভাবছি যে লিনিয়ার মডেলগুলির জন্য বর্তমান প্লটের অন্যান্য সাধারণ / দরকারী এক্সটেনশনগুলি কী আছে এবং সেগুলি আর-এ কীভাবে করা যায়? (প্যাকেজগুলির নিবন্ধগুলির লিঙ্কগুলিও স্বাগত জানানো হয়)

সুতরাং বক্সকক্স ফাংশন ({এমএএসএস from থেকে) অন্য একটি দরকারী ডায়াগনস্টিক প্লটের উদাহরণ (এবং এর উত্তরটি দুর্দান্ত হবে) তবে আমি আর এম এর জন্য বিদ্যমান ডিফল্ট ডায়াগনস্টিক প্লটের উপর প্রকরণ / প্রসারণ সম্পর্কে আরও কৌতূহলী (যদিও সাধারণ বিষয়টিতে অন্যান্য মন্তব্যগুলি সর্বদা স্বাগত জানানো হয়)।

আমি যা বলতে চাইছি তার কয়েকটি সহজ উদাহরণ এখানে দেওয়া হয়েছে:

#Some example code for all of us to refer to
set.seed(2542)
x1 <- rnorm(100)
x2 <- runif(100, -2,2)
eps <- rnorm(100,0,2)
y <- 1 + 2*x1 + 3*x2 + eps
y[1:4] <- 14 # adding some contaminated points
fit <- lm(y~x1+x2)

#plot(y~x1+x2)
#summary(fit)

সম্ভাব্য এক্স এর প্রতিটি বনাম অবশিষ্টাংশ প্লট করা

plot(resid(fit)~x1); abline (h = 0)
plot(resid(fit)~x2); abline (h = 0)
# plot(resid(fit)~x1+x2) # you can also use this, but then you wouldn't be able to use the abline on any plot but the last one

কিউকিপ্লট-তে 0-1 লাইনটি (ইংরেজিতে এই লাইনটি কীভাবে বলা হয় ?!) যুক্ত করার জন্য কিউক্লাইনটি এর থেকে কতটা বিচ্যুত হয় তা দেখতে

plot(fit, which = 2); abline(0,1, col = "green")

বাহ্যিকভাবে স্টাডিটাইজড অবশিষ্টাংশ ব্যবহার করে কিউকি প্লট প্লট করা

# plot(fit, which = 2); abline(0,1, col = "green") # The next command is just like this one
qqnorm(rstandard(fit), ylim = c(-2.2,4.2)); qqline(rstudent(fit), lty = 2) ;abline(0,1, col = "green")
qqnorm(rstudent(fit), ylim = c(-2.2,4.2)); qqline(rstudent(fit), lty = 2) ;abline(0,1, col = "green")
# We can note how the "bad" points are more extreme when using the rstudent

আমি লিটার অবজেক্টগুলির জন্য মূলত এই প্রশ্নটি জিজ্ঞাসা করেছি: stats.stackexchange.com/questions/17785/… এবং আমি আশা করি অতিরিক্ত উত্তর আসন্ন হবে।
মাইকেল বিশপ

উত্তর:


17

carরৈখিক এবং জেনারালাইজড লিনিয়ার মডেলগুলির ডায়াগনস্টিক প্লটগুলির জন্য প্যাকেজটিতে যথেষ্ট কার্যকর কার্য রয়েছে। ভ্যানিলা আর প্লটের তুলনায় এগুলি প্রায়শই অতিরিক্ত তথ্যের সাথে বাড়ানো হয়। example("<function>")প্লটগুলি কেমন দেখাচ্ছে তা দেখার জন্য আপনাকে নীচের ফাংশনগুলিতে চেষ্টা করার পরামর্শ দিচ্ছি । ফক্স এবং ওয়েজবার্গের chapter ষ্ঠ অধ্যায়ে সমস্ত প্লটটি বিশদে বর্ণিত হয়েছে। 2011. প্রয়োগিত পীড়নের জন্য একটি আর সাহাবী। দ্বিতীয় সংস্করণ।

  • residualPlots() প্রতিটি ভবিষ্যদ্বাণীকের বিরুদ্ধে পিয়ারসনের অবশিষ্টাংশ প্লট করুন (সংখ্যাসূচক ভেরিয়েবলের জন্য স্ক্র্যাপপ্লটস লয়েস ফিট সহ, কারণগুলির জন্য বক্সপ্লট)
  • marginalModelPlots() লোয়েস ফিট অন্তর্ভুক্ত করে প্রতিটি সংখ্যার ভবিষ্যদ্বাণীকের বিরুদ্ধে প্রতিক্রিয়ার ভেরিয়েবলের স্ক্যাটারপ্লটগুলি প্রদর্শন করে
  • avPlots() আংশিক-রিগ্রেশন প্লটগুলি প্রদর্শন করে: প্রতিটি ভবিষ্যদ্বাণীকের জন্য, এটি ক এর একটি বিচ্ছুরক) খ বিরুদ্ধে অন্য সমস্ত ভবিষ্যদ্বাণীকের উপর প্রতিক্রিয়া পরিবর্তনশীলের রিগ্রেশন থেকে অবশিষ্টাংশগুলি) অন্যান্য সমস্ত ভবিষ্যদ্বাণীকের বিরুদ্ধে ভবিষ্যদ্বাণীকের রিগ্রেশন থেকে অবশিষ্টাংশগুলি
  • qqPlot() কোয়ান্টাইল-কোয়ান্টাইল প্লটের জন্য যার মধ্যে একটি আত্মবিশ্বাসের খাম রয়েছে
  • influenceIndexPlot() কুকের দূরত্ব, টুপি-মান, আউটিলার পরীক্ষার জন্য পি-মান এবং পর্যবেক্ষণ সূচকের বিপরীতে স্পাইক-প্লটে স্ট্যান্ডাইজড অবশিষ্টাংশের প্রতিটি মান প্রদর্শন করে
  • influencePlot(), টুপি-মান বিরুদ্ধে studentized অবশিষ্টাংশ একটি বুদ্বুদ-চক্রান্ত, বুদ্বুদ কুকের দূরত্ব আনুসঙ্গিক আকার সঙ্গে দেয় তাও দেখতে dfbetaPlots()এবংleveragePlots()
  • boxCox()একটি বক্স-কক্স পাওয়ার-ট্রান্সফর্মে রূপান্তর পরামিতি -র লগ-সম্ভাবনার একটি প্রোফাইল প্রদর্শন করেλ
  • crPlots() উপাদান + অবশিষ্ট অবধি জন্য প্লট, এর একটি বৈকল্পিক CERES প্লট (শর্তসাপেক্ষ প্রত্যাশা এবং রিসাইডুয়ালের সংমিশ্রণ), সরবরাহিত ceresPlots()
  • spreadLevelPlot() অ-ধ্রুবক ত্রুটি বৈকল্পিক মূল্যায়ন করার জন্য এবং লাগানো মানগুলির তুলনায় নিখুঁত স্টুডেন্টাইজড অবশিষ্টাংশগুলি প্রদর্শন করে
  • scatterplot() অক্ষ বরাবর বক্সপ্লটগুলি সহ অনেক উন্নত স্ক্রেটারপ্লটগুলি সরবরাহ করে, দ্বিখণ্ডিত বিতরণের জন্য আত্মবিশ্বাসের উপবৃত্ত এবং আত্মবিশ্বাস ব্যান্ডের সাথে পূর্বাভাসের লাইনগুলি
  • scatter3d()প্যাকেজ ভিত্তিক rglএবং ওয়্যার-জাল আত্মবিশ্বাস উপবৃত্তাকার এবং পূর্বাভাস প্লেন সহ ইন্টারেক্টিভ 3 ডি-স্ক্যাটারপ্লটগুলি প্রদর্শন করে, চালানোর জন্য নিশ্চিত করুনexample("scatter3d")

তদতিরিক্ত, তিনটি ভেরিয়েবলের সাধারণ বিতরণ চিত্রিত করার জন্য অন্য পদ্ধতির জন্য bplot()প্যাকেজ থেকে একবার দেখুন rms


1
(+1) এটি একটি খুব ভাল ওভারভিউ যা আমাদের সবার জন্য কার্যকর হবে!
chl

কারাকাল - এটি একটি দুর্দান্ত তালিকা, আপনাকে ধন্যবাদ! যদি এটি আপনার পক্ষে ঠিক থাকে তবে আমি আমার ব্লগে এটি পুনরায় পোস্ট করতে পারব (আরও লোকেরা সম্ভবত তাদের মন্তব্য যুক্ত করবে)
তাল গালিলি

@ ট্যালগালিলি শিওর, আমার দ্বারা এটি ঠিক আছে।
কারাকাল


কারাকাল - আবার ধন্যবাদ :) মাইকেল - এটি একটি ভাল লিঙ্ক। যদি আপনি এটি একটি উত্তর হিসাবে যুক্ত করতে চান (এবং সম্ভবত ক্যারাকালের উত্তরে প্রদর্শিত হয়নি এমন কিছু প্রাসঙ্গিক প্লট অনুলিপি করুন) - আমি আনন্দের সাথে এটির ভোট দেব ...
তাল গ্যালিলি

7

এই উত্তরটি বাহ্যিক প্যাকেজগুলির পরিবর্তে বেস আর তে কী উপলভ্য রয়েছে তার উপর দৃষ্টি নিবদ্ধ করে, যদিও আমি সম্মত যে ফক্সের প্যাকেজটি গ্রহণ করা উচিত।

ফাংশন influence()(বা এর মোড়ক influence.measures()) জ্যাকনিফড পরিসংখ্যান সহ মডেল ডায়াগনস্টিকের জন্য আমাদের যা প্রয়োজন তার বেশিরভাগ ফিরিয়ে দেয়। এস (ওয়েডসওয়ার্থ এবং ব্রুকস, 1992) এর চেম্বারস এবং হাস্টির স্ট্যাটিস্টিকাল মডেলগুলিতে যেমন বলা হয়েছে , এটির সংমিশ্রণে এটি ব্যবহার করা যেতে পারে summary.lm()। তথাকথিত "হোয়াইট বই" (পিপি। 130-131) এ প্রদত্ত উদাহরণগুলির মধ্যে একটি মানক (সমান বৈকল্পিকের সাথে অবশিষ্টাংশ) গণনা করতে এবং স্টাডিটাইজড (এসই-র জন্য আলাদা অনুমানের সাথে একই) অবশিষ্টাংশ, ডিএফবিটিএএস (পরিবর্তন নিঃসরণ সহগগুলির জন্য এসই দ্বারা গুণিত গুণাগুণগুলি, ডিএফএফআইটি (পর্যবেক্ষণটি বাদ দেওয়া হলে উপযুক্ত মান পরিবর্তন করা) এবং ডিএফএফআইটিএস (ইউনিট বৈকল্পিক সহ একই) ব্যবস্থাগুলি খুব বেশি অসুবিধা ছাড়াই।

আপনার উদাহরণের ভিত্তিতে এবং নিম্নলিখিত বিষয়গুলির সংজ্ঞা দিচ্ছেন:

lms <- summary(fit)
lmi <- influence(fit)
e <- residuals(fit)
s <- lms$sigma
xxi <- diag(lms$cov.unscaled)
si <- lmi$sigma
h <- lmi$hat
bi <- coef(fit) - coef(lmi)

আমরা নিম্নরূপে উপরের পরিমাণগুলি গণনা করতে পারি:

std. residuals    e / (s * (1-h)^.5
stud. residuals   e / (si * (1-h)^.5
dfbetas           bi / (si %o% xxi^.5 
dffit             h * e / (1-h)
dffits            h^.5 * e / (si * (1-h))

(এটি সারণী 4.1 , পৃষ্ঠা 131.)

চেম্বারস এবং হাস্টি ডিএফবিটিএএসএস কম্পিউটিংয়ের জন্য নিম্নলিখিত এস / আর কোড দেয়:

dfbetas <- function(fit, lms = summary(fit), lmi = lm.influence(fit)) {
  xxi <- diag(lms$cov.unscaled)
  si <- lmi$sigma
  bi <- coef(fit) - coef(lmi)
  bi / (si %o% xxi^0.5)
}

আমি কেন এই পদ্ধতির উল্লেখ করব? কারণ, প্রথমে, আমি এটি শিক্ষাগত দৃষ্টিভঙ্গি থেকে আকর্ষণীয় বলে মনে করি (প্রারম্ভিক পরিসংখ্যান কোর্স পড়ানোর সময় আমি এটিই ব্যবহার করছি) কারণ এটি আর-র সাথে লাগানো কোনও ফিটিত লিনিয়ার মডেলের আউটপুট থেকে কী গণনা করা যেতে পারে তা চিত্রিত করার অনুমতি দেয় (তবে একইটি হবে অন্য কোনও পরিসংখ্যান প্যাকেজের সাথে প্রয়োগ করুন)। দ্বিতীয়ত, উপরের পরিমাণগুলিকে আর-তে সাধারণ ভেক্টর বা ম্যাট্রিক হিসাবে ফিরিয়ে দেওয়া হবে, এর অর্থ এটিও হ'ল আমরা যে গ্রাফিক্স ডিভাইসটি পছন্দ করতে পারি --- ল্যাটিস বা জিজিপ্লাট --- সেই পরিসংখ্যান প্রদর্শন করতে, বা একটি বিদ্যমান উন্নত করতে তাদের ব্যবহার করতে পারি প্লট (উদাহরণস্বরূপ, পয়েন্ট আকারের পরিবর্তে একটি স্ক্যাটারপ্লোটে DFFITS মান হাইলাইট করুন cex)।


খুব তথ্যপূর্ণ এবং দরকারী উত্তর। আপনি পরিসংখ্যান যুক্তি নথিভুক্ত করার পরে আর এর উপর মনোযোগ কেন্দ্রীভূত হতে পারে না
DWin
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.