লিনিয়ার রিগ্রেশন মধ্যে অবশিষ্টাংশ বিতরণ নিশ্চিত করা


17

ধরুন আমরা একটি সহজ রৈখিক রিগ্রেশনের দৌড়ে Y=β0+ +β1এক্স+ +তোমার দর্শন লগ করা অবশিষ্টাংশ, সংরক্ষিত তোমার দর্শন লগ করাআমি^ এবং অবশিষ্টাংশ বিতরণের একটি হিস্টোগ্রাম আঁকা। যদি আমরা এমন কিছু পাই যা একটি পরিচিত বিতরণের মতো দেখায়, তবে আমরা কী ধরে নিতে পারি যে আমাদের ত্রুটি শব্দটির এই বন্টন রয়েছে? বলুন, যদি আমরা জানতে পেরেছিলাম যে অবশিষ্টাংশগুলি সাধারণ বন্টনের সাথে সাদৃশ্যপূর্ণ, তবে জনসংখ্যার ক্ষেত্রে ত্রুটি শর্তের স্বাভাবিকতা ধরে নেওয়া কি বোধগম্য? আমি মনে করি এটি বোধগম্য, তবে কীভাবে এটি ন্যায়সঙ্গত হতে পারে?


1
ব্যক্তিগতভাবে আমার কাছে হিস্টোগ্রাম (বা কার্নেলের ঘনত্বের প্লট) থেকে স্বাভাবিকতা নির্ধারণ করা আরও কঠিন। আমি কোনও "চূড়ান্ত" প্রমাণ হিসাবে তাদের উপর নির্ভর করব না। কিউকিউ প্লট এই উদ্দেশ্যে অনেক বেশি শক্তিশালী।

উত্তর:


18

এটি সমস্ত কীভাবে আপনি প্যারামিটারগুলি অনুমান করেন তার উপর নির্ভর করে । সাধারণত, অনুমানকারীগুলি লিনিয়ার হয়, যা বোঝায় যে অবশিষ্টাংশগুলি ডেটার লিনিয়ার ফাংশন। যখন ত্রুটি একটি সাধারণ বন্টনের আছে, তারপর তাই তথ্য না কোথা তাই অবশিষ্টাংশ না তোমার দর্শন লগ করা আমি ( আমি ইনডেক্স তথ্য মামলা অবশ্যই,)।তোমার দর্শন লগ করাআমিতোমার দর্শন লগ করা^আমিআমি

এটি অনুমেয়যোগ্য (এবং যুক্তিযুক্তভাবে সম্ভব) যে অবশিষ্টাংশগুলিতে আনুমানিক একটি সাধারণ (অবিবাহিত) বন্টন উপস্থিত দেখা যায়, যা ত্রুটির অ-সাধারণ বিতরণ থেকে উদ্ভূত হয় । তবে, কমপক্ষে স্কোয়ার (বা সর্বাধিক সম্ভাবনা) কৌশলগুলি অনুমানের সাথে, অবশিষ্টাংশগুলি গণনা করার ক্ষেত্রে রৈখিক রূপান্তরটি "মৃদু" অর্থে যে অবশিষ্টাংশগুলির (বহুবিধ) বন্টনের বৈশিষ্ট্যগত কার্য ত্রুটির সিএফ থেকে অনেকগুলি পৃথক হতে পারে না ।

বাস্তবে, আমরা কখনো প্রয়োজন যা ত্রুটির করা ঠিক , সাধারণত বিতরণ তাই এই একটি গুরুত্বহীন বিষয়। ত্রুটিগুলির জন্য আরও বৃহত্তর আমদানি হ'ল (১) তাদের প্রত্যাশাগুলি সমস্তই শূন্যের কাছাকাছি হওয়া উচিত; (২) তাদের পারস্পরিক সম্পর্ক কম হওয়া উচিত; এবং (3) স্বীকৃত স্বল্প সংখ্যক বহির্মুখী মান থাকতে হবে। এগুলি পরীক্ষা করতে, আমরা বিভিন্ন ধার্মিকতা-ফিট-টেস্ট, পারস্পরিক সম্পর্ক পরীক্ষা এবং আউটলিয়ারদের (যথাক্রমে) অবশিষ্টাংশের পরীক্ষাগুলি প্রয়োগ করি। সাবধানতার সাথে রিগ্রেশন মডেলিংয়ে সর্বদা এ জাতীয় পরীক্ষা চালানো অন্তর্ভুক্ত থাকে (যার মধ্যে অবশিষ্টাংশগুলির বিভিন্ন গ্রাফিকাল ভিজ্যুয়ালাইজেশন অন্তর্ভুক্ত থাকে, যেমন plotকোনও lmশ্রেণিতে প্রয়োগ করার সময় আর এর পদ্ধতি দ্বারা স্বয়ংক্রিয়ভাবে সরবরাহ করা হয় )।

এই প্রশ্নে উঠার আরেকটি উপায় হ'ল হাইপোথাইজড মডেল থেকে অনুকরণ করে। কাজটি করার জন্য এখানে কয়েকটি (ন্যূনতম, এক-অফ) Rকোড রয়েছে:

# Simulate y = b0 + b1*x + u and draw a normal probability plot of the residuals.
# (b0=1, b1=2, u ~ Normal(0,1) are hard-coded for this example.)
f<-function(n) { # n is the amount of data to simulate
    x <- 1:n; y <- 1 + 2*x + rnorm(n); 
    model<-lm(y ~ x); 
    lines(qnorm(((1:n) - 1/2)/n), y=sort(model$residuals), col="gray")
}
#
# Apply the simulation repeatedly to see what's happening in the long run.
#
n <- 6    # Specify the number of points to be in each simulated dataset
plot(qnorm(((1:n) - 1/2)/n), seq(from=-3,to=3, length.out=n), 
    type="n", xlab="x", ylab="Residual") # Create an empty plot
out <- replicate(99, f(n))               # Overlay lots of probability plots
abline(a=0, b=1, col="blue")             # Draw the reference line y=x

কেস এন = 32 এর জন্য, 99 টি অবশিষ্টাংশের এই ওভারলড সম্ভাব্যতা প্লটটি দেখায় যে তারা ত্রুটি বিতরণ (যা সাধারণ স্বাভাবিক) এর কাছাকাছি থাকে কারণ তারা রেফারেন্স লাইনে অবিচ্ছিন্নভাবে আঁকড়ে থাকে :Y=এক্স

N = 32 এর জন্য চিত্র

এন = case ক্ষেত্রে, সম্ভাব্যতা প্লটগুলির মধ্যে ছোট মাঝারি opeাল ইঙ্গিত দেয় যে অবশিষ্টাংশগুলি ত্রুটিগুলির তুলনায় কিছুটা ছোট পার্থক্য রাখে, তবে সামগ্রিকভাবে তারা সাধারণত বিতরণ করতে থাকে, কারণ তাদের বেশিরভাগ রেফারেন্স লাইন পর্যাপ্তভাবে ট্র্যাক করে থাকে (প্রদত্ত প্রদত্ত ছোট মান ):এন

N = 6 এর জন্য চিত্র


আপনার ডেটা rexp(n)তৈরি করার rnorm(n)সময় আপনি যদি তার জায়গায় বলছেন তবে জিনিসগুলি আরও আকর্ষণীয় হয়ে উঠবে । অবশিষ্টাংশগুলির বিতরণটি আপনি যা ভাবেন তার থেকে স্বাভাবিকের সাথে আরও বেশি কাছাকাছি আসবে।
স্টাসকে

তবে আমরা যদি অবশিষ্টগুলি স্বাভাবিক হিসাবে ধরে না নিই, তবে অনুমানিত সহগের পি-ভ্যালু কীভাবে গণনা করা হয়? পরীক্ষার পরিসংখ্যান কী?
পিঁপড়ে

5

আসুন আমরা ন্যূনতম স্কোয়ারের জ্যামিতিটি স্মরণ করি: আমাদের মুলত সমীকরণ ম্যাট্রিক্স ফর্মটিতে y = X β + ϵ হিসাবে লিখেছি যা থেকে আমরা অবশিষ্টাংশগুলি e = ( আই - এইচ ) পেয়েছি Y যেখানে এইচ = এক্স ( এক্স ' এক্স ) - 1 এক্স ' হয় অভিক্ষেপ ম্যাট্রিক্স, বা টুপি-ম্যাট্রিক্স । আমরা দেখতে পাচ্ছি যে প্রতিটি স্বতন্ত্র অবশেষ এবং i

Yআমি=এক্সআমি'β+ +εআমি
Y=এক্সβ+ +ε
=(আমি-এইচ)Y
H=X(XX)1X
eiসম্ভাব্য বৃহৎ তির্যক মূল্যের সংমিশ্রণ বার নিজস্ব অবশিষ্ট ε আমি এবং ক্ষুদ্র মাত্রার একটি গুচ্ছ বন্ধ-তির্যক মান আমি বার তাদের অবশিষ্টাংশ ε , আমি । (যে কারণটি আমি বলছি যে অফ-ডায়াগোনাল মানগুলি ছোট তা হ'ল j i h 2 i j + h 2 i i = h i i(1hii)ϵihijε,আমিjihij2+hii2=hii, এবং প্রকৃতপক্ষে তির্যক বা অফ-তির্যক এন্ট্রিগুলি মোটামুটি অর্ডার যদিও এটি খুব কঠোর বিবৃতি নয় যা সহজেই উচ্চ উত্তোলনের পয়েন্টগুলি দ্বারা ছুঁড়ে দেওয়া হয়)) সুতরাং আপনি যদি সংখ্যায় যোগ করেন তবে কী হয়? ছোট ওজন সহ আইডিস্ক অনেক? ঠিক আছে, আপনি কেন্দ্রীয় সীমাবদ্ধ উপপাদ্য দ্বারা সাধারণ বিতরণ পাবেন। সুতরাং অবশিষ্ট বন্ধ তির্যক পদ অবদান বৃহৎ নমুনা একটি মূলত স্বাভাবিক উপাদান উত্পাদন করা হবে, মূল বন্টন অ-স্বাভাবিক আউট মসৃণকরণ ত্রুটি ε আমি বৈশিষ্ট্যযুক্ত থাকতে পারে। এটা অবশ্যই সত্যি যে অবশিষ্ট প্রধান অংশ আমি এখনও নিজের ত্রুটি থেকে আসে (O(1/n) ϵআমিei , তবে এই সমস্ত শর্তাদির ইন্টারপ্লে ত্রুটিগুলির মূল বন্টনের তুলনায় স্বাভাবিকের সাথে অনেক বেশি এমন বিতরণ তৈরি করতে পারে।(1hii)ϵi

1

যদি আমরা এমন কিছু পাই যা একটি পরিচিত বিতরণের মতো দেখায়, তবে আমরা কী ধরে নিতে পারি যে আমাদের ত্রুটি শব্দটির এই বন্টন রয়েছে?

আমি যুক্তি দিয়ে বলব যে আপনি পারবেন না, যেহেতু আপনার সবেমাত্র উপযুক্ত মডেলটি অবৈধ তবে যদি ত্রুটিগুলির সম্পর্কে স্বাভাবিক ধারণাটি ধরে না রাখে। (এই অর্থে যে বিতরণের আকারটি স্বতন্ত্রভাবে অস্বাভাবিক, যেমন কাউচি ইত্যাদি)

ফে পইসন বিতরণ ত্রুটিগুলি ধরে নেওয়ার পরিবর্তে স্বাভাবিক পদ্ধতির মধ্যে কিছু অংশের ডেটা ট্রান্সফর্মেশন যেমন লগ ওয়াই, বা 1 / y হিসাবে অবশিষ্টাংশগুলিকে স্বাভাবিক করার জন্য করা হয়। (এছাড়াও সত্যিকারের মডেলটি লিনিয়ার নাও থাকতে পারে যা প্লট করা অবশিষ্টাংশগুলি বাস্তবে স্বাভাবিক হলেও অদ্ভুতভাবে বিতরণে প্রদর্শিত হবে)

বলুন, যদি আমরা জানতে পেরেছিলাম যে অবশিষ্টাংশগুলি সাধারণ বন্টনের সাথে সাদৃশ্যপূর্ণ, তবে জনসংখ্যার ক্ষেত্রে ত্রুটি শর্তের স্বাভাবিকতা ধরে নেওয়া কি বোধগম্য?

আপনি কোনও ওএলএস রিগ্রেশন ফিট করার পরে আপনি ত্রুটির স্বাভাবিকতা ধরে নিয়েছেন। আপনাকে এই দাবির পক্ষে যুক্তি সরবরাহ করতে হবে কিনা তা নির্ভর করে আপনার কাজের ধরণ এবং স্তরের উপর। (ক্ষেত্রের মধ্যে গ্রহণযোগ্য অনুশীলন কী তা দেখার জন্য প্রায়শই দরকারী)

এখন, যদি অবশিষ্টাংশগুলি বাস্তবে সাধারণভাবে বিতরণ করা হয় বলে মনে হয় তবে আপনি নিজেকে পিছনে রাখতে পারেন, যেহেতু আপনি এটিকে আপনার পূর্ববর্তী অনুমানের অভিজ্ঞতা অভিজ্ঞতা হিসাবে ব্যবহার করতে পারেন। :)


0

হ্যাঁ এটা বোধগম্য। অবশিষ্টাংশ ত্রুটি। আপনি সাধারণ কিউকিউ প্লটটিও দেখতে পারেন।


হ্যাঁ, সঠিক, "তবে কীভাবে এটি ন্যায়সঙ্গত হতে পারে?" আমাদের কী আশ্বাস দেয় যে এর অভিজ্ঞতাগত বিতরণতোমার দর্শন লগ করা^আমি এর আনুমানিক হবে তোমার দর্শন লগ করা?
whuber

7
এটি পেডেন্টিক তবে অবশিষ্টাংশগুলি ত্রুটি নয়। অবশিষ্টাংশ হ'ল অনুমিত মডেল থেকে পর্যবেক্ষণ করা পার্থক্য,Yআমি-এক্সআমিβ^। ত্রুটিগুলি হ'ল সত্য মডেল থেকে পার্থক্যYআমি-এক্সআমিβ
ম্যাক্রো

@ শুভ: এটি কী তা আমি জানি না, তবে আমি ধরে নিচ্ছি যে এটি একই জিনিসটি যা নমুনাকে ন্যায়সঙ্গত করে এক্স জনসংখ্যার প্রায় এক্সঠিক আছে?
ওয়েইন

1
@ ওয়াইন, আমি বিশ্বাস করি যে "জনগণের মধ্যে ত্রুটির শর্তগুলির স্বাভাবিকতা অনুমান করার জন্য ..." যদি আমরা জানতে পারি যে অবশিষ্টাংশগুলি সাধারণ বন্টনের সাথে সাদৃশ্যপূর্ণ, তবে "এটি" পদ্ধতিটিকে বোঝায় "। আমি মনে করি আপনি মূলত সঠিক, তবে সূক্ষ্মতা হ'ল অবশিষ্টাংশগুলি পরামিতিগুলি অনুমান করার জন্য ব্যবহৃত নমুনা এবং পদ্ধতি উভয়েরই একটি পণ্য । আমি এটি একটি চিন্তাশীল এবং আকর্ষণীয় প্রশ্ন বলে মনে করি।
whuber

@ তবে আমি আপনার স্টাডেন্টাইজড বনাম স্ট্যান্ডার্ডাইজড বনাম কাঁচা রেসিডুয়ালগুলি গ্রহণে আগ্রহী।
মিশেল
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.