পোইসন রিগ্রেশন থেকে ফিটেড মানসমূহের অবশিষ্টাংশের প্লটকে ব্যাখ্যা করা


25

আমি আর-তে একটি জিএলএম (পোয়েসন রিগ্রেশন) দিয়ে ডেটা ফিট করার চেষ্টা করছি When এটার মানে কি?

library(faraway)
modl <- glm(doctorco ~ sex + age + agesq + income + levyplus + freepoor + 
            freerepa + illness + actdays + hscore + chcond1 + chcond2,
            family=poisson, data=dvisits)
plot(modl)

এখানে চিত্র বর্ণনা লিখুন


আমি জানি না আপনি প্লটটি আপলোড করতে পারেন (কখনও কখনও নতুনরা পারেন না), তবে তা না হলে, আপনি কি কমপক্ষে আপনার প্রশ্নে কিছু ডেটা এবং আর কোড যুক্ত করতে পারবেন যাতে লোকেরা তা মূল্যায়ন করতে পারে?
গুং - মনিকা পুনরায়

জোসলিন, আমি আপনার মন্তব্যে রাখা তথ্য দিয়ে আপনার পোস্ট আপডেট করেছি। homeworkআপনি যেহেতু কোনও অ্যাসাইনমেন্টের বিষয়ে কথা বলেছেন সেভাবেই আমি এটি ট্যাগ করেছি ।
chl

গ্রাফটি আরও বেশি পঠনযোগ্য কিনা তা দেখার জন্য প্লট (জিটটার (মোডে 1) ব্যবহার করে দেখুন। আপনি কেন আমাদের জন্য অবশিষ্টাংশগুলি সংজ্ঞায়িত করেন না এবং গ্রাফকে নিজেরাই ব্যাখ্যা করার জন্য আমাদের সেরা অনুমান দিন।
মাইকেল বিশপ

1
প্রশ্ন থেকে, আমি ধরে নিচ্ছি যে আপনি পোইসন বিতরণ এবং পোইস রেজি বুঝতে পেরেছেন, এবং সজ্জিত মান বনাম অবশিষ্টাংশের একটি প্লট আপনাকে কী বলেছে (আপডেটটি যদি এটি ভুল হয় তবে), সুতরাং আপনি কেবলমাত্র পয়েন্টগুলির বিজোড় উপস্থিতি সম্পর্কে ভাবছেন প্লটে বি / সি এটি হোমওয়ার্ক, আমরা আমাদের সাধারণ নীতি হিসাবে যথেষ্ট উত্তর দিই না, তবে ইঙ্গিত সরবরাহ করি। আমি লক্ষ্য করেছি যে আপনার প্রচুর পরিমাণে সমবায় রয়েছে, আমি অবাক হই যে আপনার যদি 1 টি অবিচ্ছিন্ন এবং বহু বাইনারি কোভারিয়েট থাকে।
গুং - মনিকা পুনরায়

1
গুং এর মন্তব্য থেকে দুটি অনুসরণ। প্রথম, চেষ্টা করুন table(dvisits$doctorco)। এই টেবিলের সাথে আপনার প্লটের 10 টি বাঁকা রেখা কীসের সাথে মিলবে? এছাড়াও 5000 টিরও বেশি পর্যবেক্ষণ সহ 13 টি রিগ্রেশন কোফিয়েনটিস ফিট করার বিষয়ে খুব বেশি চিন্তা করবেন না।
গেস্ট

উত্তর:


29

নির্ভরশীল ভেরিয়েবলটি বিচ্ছিন্ন হয়ে গেলে আপনি এই জাতীয় প্লটের প্রত্যাশাটির উপস্থিতি।

প্লটের প্রতিটি পয়েন্টের কার্ভিলাইনার ট্রেস নির্ভরশীল ভেরিয়েবল y এর একটি নির্দিষ্ট মান এর সাথে মিলে যায় । প্রতিটি ক্ষেত্রে যেখানে Y = একটি পূর্বানুমান রয়েছে Y ; তার অবশিষ্ট - দ্বারা সংজ্ঞা - সমান - Y । চক্রান্ত - Y বনাম Y স্পষ্টত ঢাল সঙ্গে একটি লাইন - 1 । পইসন রিগ্রেশন সালে x- অক্ষ একটি লগ স্কেলে দেখানো হল: এটা লগ ইন করুন ( Y ) । বক্ররেখাগুলি এখন দ্রুত নিচে বাঁকানো হয়। যেমন কেkyy=y^ky^ky^y^1log(y^)kপরিবর্তিত হয়, এই বক্ররেখাগুলি অবিচ্ছেদ্য পরিমাণে বৃদ্ধি পায়। এগুলি ব্যাখ্যা করে অর্ধ-সমান্তরাল কার্ভগুলির একটি সেট দেয়। (এটি প্রমাণ করতে, প্লটটি নীচে স্পষ্টভাবে নির্মিত হবে, পৃথকভাবে এর মান দ্বারা পয়েন্টগুলি রঙ করবে ।)y

আমরা অনুরূপ কিন্তু স্বেচ্ছাসেবক মডেল (ছোট এলোমেলো সহগ ব্যবহার করে) এর মাধ্যমে প্রশ্নের প্লটটিকে বেশ ঘনিষ্ঠভাবে পুনরুত্পাদন করতে পারি :

# Create random data for a random model.
set.seed(17)
n <- 2^12                       # Number of cases
k <- 12                         # Number of variables
beta = rnorm(k, sd=0.2)         # Model coefficients
x <- matrix(rnorm(n*k), ncol=k) # Independent values
y <- rpois(n, lambda=exp(-0.5 + x %*% beta + 0.1*rnorm(n)))

# Wrap the data into a data frame, create a formula, and run the model.
df <- data.frame(cbind(y,x))    
s.formula <- apply(matrix(1:k, nrow=1), 1, function(i) paste("V", i+1, sep=""))
s.formula <- paste("y ~", paste(s.formula, collapse="+"))
modl <- glm(as.formula(s.formula), family=poisson, data=df)

# Construct a residual vs. prediction plot.
b <- coefficients(modl)
y.hat <- x %*% b[-1] + b[1]     # *Logs* of the predicted values
y.res <- y - exp(y.hat)         # Residuals
colors <- 1:(max(y)+1)          # One color for each possible value of y
plot(y.hat, y.res, col=colors[y+1], main="Residuals v. Fitted")

অবশিষ্টাংশ বনাম লাগানো


6
(+1) রঙ যা ঘটছে তা দেখানোর ক্ষেত্রে অনেক বেশি এগিয়ে যায়।
কার্ডিনাল

তাহলে উপরের প্লটটি কি? টেক্সটস (বায়োমেডিকাল গবেষকদের জন্য পরিসংখ্যানের মডেলিং: কমপ্লেক্স ডেটা বিশ্লেষণের একটি সাধারণ ভূমিকা, ডুপন্ট, 2002, পৃষ্ঠা 316, যেমন) নির্দেশিত ফিটেড বনাম অবশিষ্টাংশ প্লটটি শূন্য অবশিষ্টাংশের লাইনকে কেন্দ্র করে করা উচিত, এবং উভয় ফ্যান (যদি কাঁচা হয়) অবশিষ্টগুলি) বা না (যদি বিচ্যুতি হয়, যেমন)। ফলাফলের ভেরিয়েবলের সীমিত পরিসরের সাথে আপনি এই ব্যান্ডগুলি পেয়ে যান এবং উপরের চক্রান্ত অনুসারে, এগুলি y = 0 তে লাইনটি কেন্দ্রিক নয় we আমরা ওপি'র অবশিষ্ট অবধি (বা উদাহরণের প্লট) কীভাবে জানি? এই উত্তরে তৈরি করা হয়েছে) মডেলগুলি কি ডেটা ভালভাবে ফিট করে?
মেগ

1
@ মেগ এই পরামর্শটি সরাসরি কোনও জিএলএমের অবশিষ্টদের ক্ষেত্রে প্রযোজ্য না। নোট করুন যে এই উত্তরটি চিত্রিত করার জন্য ব্যবহৃত মডেলটি সঠিক বলে পরিচিত কারণ এটিই ডেটা উত্পন্ন করতে ব্যবহৃত হয়।
whuber

১/২: ধন্যবাদ @ হুবার আমি এই উত্তরের জন্য বুঝতে পারি মডেলটি সঠিক বলে পরিচিত যেহেতু প্রদত্ত বিতরণ থেকে ডেটা সিমুলেটেড করা হয়েছিল, তবে বাস্তবে এটি অজানা (অপের পোস্টের মতো)। এছাড়াও, আমি অবশিষ্টাংশ নিয়ে লিখেছেন নেই পিওআই রিগ্রেশন (সব GLMs, না, কিন্তু এই এক) ক্ষেত্রে প্রযোজ্য - রেফারেন্স আমি দিয়েছিলাম বিশেষভাবে আকর্ষণীয় স্থান রিগ্রেশন আলোচনা করা হয়েছে। আমি কেবল পাঠ্যগুলিকেই দেখেছি মানকৃত পিওআইয়ের অবশিষ্টাংশগুলি (পিয়ারসন বা বিচ্যুতি, উদাহরণস্বরূপ) y = 0 নিয়ে কেন্দ্র করে, তাই আমি কী সন্ধান করব তা নিশ্চিত নই, কারণ এই মডেলের জন্য (যা স্পষ্টতই সঠিক) প্লটটি দেখায় ওরকম কিছুনা.
মেগ

2/2: আপনার কি এমন কোনও প্রস্থান রেফারেন্স রয়েছে যা কোনও সুযোগের মাধ্যমে পিওআইয়ের অবশিষ্টাংশকে আরও পুঙ্খানুপুঙ্খভাবে আলোচনা করে?
মেগ

8

কখনও কখনও অবশিষ্ট প্লটগুলির মতো এর মতো স্ট্রাইপগুলি (প্রায়) অভিন্ন পর্যবেক্ষণকৃত মানগুলির সাথে পয়েন্টগুলি উপস্থাপন করে যা বিভিন্ন পূর্বাভাস পায় get আপনার টার্গেটের মানগুলি দেখুন: এগুলি কতগুলি অনন্য মান? আমার পরামর্শটি যদি সঠিক হয় তবে আপনার প্রশিক্ষণের ডেটা সেটে 9 টি অনন্য মান থাকতে হবে।


1
0,1,,9

-3

এই নিদর্শনটি পরিবারের এবং / অথবা লিঙ্কটির একটি ভুল মিলের বৈশিষ্ট্য। আপনার যদি অতিমাত্রায় ডেটা থাকে তবে সম্ভবত আপনার নেতিবাচক দ্বিপদী (গণনা) বা গামা (ধারাবাহিক) বিতরণগুলি বিবেচনা করা উচিত। এছাড়াও সাধারণ রৈখিক মডেলগুলি ব্যবহার করার সময় আপনার রেশিয়ালগুলি রূপান্তরিত লিনিয়ার পূর্বাভাসকের বিরুদ্ধে পরিকল্পনা করা উচিত, ভবিষ্যদ্বাণীকারীদের বিরুদ্ধে নয়। পোইসন প্রেডিক্টরকে রূপান্তর করতে আপনাকে লিনিয়ার প্রেডিক্টরের 2 গুণ বর্গমূল নিতে হবে এবং এর বিরুদ্ধে আপনার অবশিষ্টাংশ প্লট করতে হবে। অবশিষ্টাংশগুলি আরও একচেটিয়াভাবে পিয়ারসন অবশিষ্টাংশগুলি হওয়া উচিত নয়, ডিভ্যান্স রেসিডুয়ালগুলি এবং স্টাডেন্টাইজড রেসিডগুলি চেষ্টা করে।


3
বর্গক্ষেত্রের 2 বার কেন, যখন কোনও গ্ল্যামে পোয়েসন পরিবারের নৈতিক লিঙ্কটি লগ হয়? এটি লিনিয়ার পূর্বাভাসকারী (এক্সপ্রেস) হওয়া উচিত নয়? তবে আমি দেখতে পাই না যে লিনিয়ার ভবিষ্যদ্বাণী নিজেই এর বিরুদ্ধে প্লট বেঁচে থাকার সমস্যা কী, যা আমার মনে হয় এখানে যা করা হচ্ছে - সম্ভবত আপনি এটির প্রসার ঘটাতে পারেন।
পিটার এলিস

রায়ান, "প্যাটার্ন" এর কোন দিকটি আপনার সম্ভাব্য মডেলটির ভুল-স্পেসিফিকেশনটির দিকে আপনার দৃষ্টি আকর্ষণ করছে, তা বোঝাতে আপনি কি আপত্তি করবেন? এটি একটি সূক্ষ্ম জিনিস বলে মনে হয় তবে এটি সম্ভবত একটি গুরুত্বপূর্ণ অন্তর্দৃষ্টি।
whuber
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.