কি যদি অবশিষ্টাংশগুলি সাধারণত বিতরণ করা হয় তবে y হয় না?


110

আমি একটি অদ্ভুত প্রশ্ন পেয়েছি। ধরে নিন যে আপনার একটি ছোট নমুনা রয়েছে যেখানে আপনি একটি নির্ভরযোগ্য পরিবর্তনশীল যা আপনি একটি সাধারণ রৈখিক মডেল নিয়ে বিশ্লেষণ করতে যাচ্ছেন তা অত্যন্ত বামে। সুতরাং আপনি ধরে নিতে পারেন যে সাধারণত বিতরণ করেন না, কারণ এর ফলে সাধারণত বন্টিত হয় । তবে আপনি কিউকিউ-সাধারণ প্লটটি গণনা করার সময় প্রমাণ রয়েছে যে, অবশিষ্টাংশগুলি সাধারণত বিতরণ করা হয়। সুতরাং যে কেউ অনুমান করতে পারে যে ত্রুটি শব্দটি সাধারণত বিতরণ করা হয়, যদিও হয় না। সুতরাং এর অর্থ কী, যখন ত্রুটি শব্দটি সাধারণত বিতরণ করা হয় বলে মনে হয় তবে y হয় না?তোমার দর্শন লগ করাYYY

উত্তর:


143

কোনও প্রতিক্রিয়াজনিত সমস্যার মধ্যে অবশিষ্টাংশদের পক্ষে সাধারণত বিতরণ করা যুক্তিসঙ্গত, যদিও প্রতিক্রিয়া পরিবর্তনশীল না হয়। অবিচ্ছিন্ন রিগ্রেশন সমস্যাটি বিবেচনা করুন যেখানে । যাতে রিগ্রেশন মডেলটি উপযুক্ত এবং আরও ধরে নিতে হবে যে আসল মান । এই ক্ষেত্রে, যখন সত্য রিগ্রেশন মডেল অবশিষ্টাংশ স্বাভাবিক হয়, বিতরণের বিতরণের উপর নির্ভর করে , যেমন এর শর্তাধীন গড় একটি ফাংশন । যদি ডেটাসেটের অনেকগুলি মান থাকে যা শূন্যের কাছাকাছি থাকে এবং ক্রমান্বয়ে এর মান আরও কম হয় , তবে এর বিতরণY~এন(βএক্স,σ2)β=1Yএক্সYএক্সএক্সএক্সY বাম দিকে skew করা হবে। যদি এর মানগুলি প্রতিসম আকারে বিতরণ করা হয়, তবে প্রতিসাম্যিকভাবে বিতরণ করা হবে, এবং আরও আগে। একটি রিগ্রেশন সমস্যার জন্য, আমরা কেবল ধরে নিই যে প্রতিক্রিয়াটি এর মানকে ।এক্সYএক্স


9
(+1) আমি মনে করি না এটি প্রায়শই পুনরাবৃত্তি হতে পারে! আরও দেখুন একই সমস্যা এখানে আলোচনা
ওল্ফগ্যাং

1
আমি আপনার উত্তরটি বুঝতে পেরেছি এবং এটি সঠিক বলে মনে হচ্ছে। কমপক্ষে আপনি প্রচুর ইতিবাচক ভোট পেয়েছেন :) তবে আমি মোটেই খুশি নই। সুতরাং আপনার উদাহরণে যে অনুমান করেছেন তা । তবে যখন আমি রিগ্রেশনটি অনুমান করি তখন আমি অনুমান করি । সুতরাং আমি গড় গড় অনুমান করছি এমন সময় দেওয়া উচিত। এ থেকে এটি অনুসরণ করা উচিত যে এক্সটি একটি মান এবং এটি উপলব্ধি করার আগে এটি কীভাবে বিতরণ করা হয়েছিল তা আমি যত্ন করি না। সুতরাং হ'ল এর বন্টন । আমি বুঝতে পারছি না কোথায় প্রভাব । y N ( 1 x , σ 2 ) E ( y | x ) x y N ( v a l u e , σ 2 ) y x yβ=1yN(1x,σ2)E(y|x)xY~এন(বনামএকটিতোমার দর্শন লগ করা,σ2)Yএক্সY
মার্কডোলার

4
আমি বরং (আনন্দদায়ক) পাশাপাশি ভোটের সংখ্যায় বিস্মিত হয়েছি; o) রিগ্রেশন মডেলটি ফিট করার জন্য ব্যবহৃত ডেটা পেতে, আপনি কিছু যৌথ বিতরণ থেকে একটি নমুনা নিয়েছেন , যা থেকে আপনি অনুমান করতে চান । তবে যেহেতু একটি (গোলমাল) ফাংশন , তাই এর নমুনাগুলির বন্টন অবশ্যই সেই নির্দিষ্ট নমুনার জন্য এর নমুনার বিতরণের উপর নির্ভর করে । আপনি এর "সত্য" বিতরণে আগ্রহী নাও হতে পারেন , তবে y এর নমুনা বন্টন x এর নমুনার উপর নির্ভর করে। E ( y | x ) y x y x xপি(Y,এক্স)(Y|এক্স)Yএক্সYএক্সএক্স
ডিকরান মার্শুপিয়াল

2
ল্যাটিটিউড ( ) এর ফাংশন হিসাবে তাপমাত্রা ( ) অনুমানের একটি উদাহরণ বিবেচনা করুন । আমাদের নমুনায় মানগুলির বিতরণ নির্ভর করবে যেখানে আমরা আবহাওয়া স্টেশনগুলি বেছে নেব তার উপর নির্ভর করবে। আমরা যদি সেগুলি সমস্ত খুঁটি বা নিরক্ষীয় অঞ্চলে রাখি, তবে আমাদের কাছে দ্বি-দ্বি বিতরণ হবে। যদি আমরা এগুলিকে একটি নিয়মিত সমান অঞ্চল গ্রিডে রাখি, আমরা জলবায়ুর পদার্থবিজ্ঞান উভয় নমুনার ক্ষেত্রে সমান হওয়া সত্ত্বেও, মানগুলির একটি সর্বজনীন বিতরণ করব । অবশ্যই এটি আপনার লাগানো রিগ্রেশন মডেলকে প্রভাবিত করবে এবং সেই ধরণের জিনিসটির অধ্যয়ন "কোভারিয়েট শিফট" নামে পরিচিত। এইচটিএইচx y yYএক্সYY
ডিকরান মার্শুপিয়াল

আমিও সন্দেহ অন্তর্নিহিত ধৃষ্টতা যে ব্যবহৃত তথ্য কর্মক্ষম যৌথ বন্টন থেকে একটি IID নমুনা ছিল শর্তাধীন । p ( y , x )(Y|এক্স)পি(Y,এক্স)
ডিকরান মার্শুপিয়াল

100

@ ডিক্রানমারসুপিয়াল অবশ্যই সঠিক, তবে এটি আমার কাছে ঘটেছে যে তাঁর বক্তব্যটি বর্ণনা করা ভাল লাগবে , বিশেষত যেহেতু এই উদ্বেগটি প্রায়শই দেখা দেয়। বিশেষত, পি-মানগুলি সঠিক হওয়ার জন্য একটি রিগ্রেশন মডেলের অবশিষ্টাংশগুলি সাধারণত বিতরণ করা উচিত। তবে, অবশিষ্টাংশগুলি সাধারণত বিতরণ করা হলেও, এটি গ্যারান্টি দেয় না যে হবে (এমন নয় যে এটি গুরুত্বপূর্ণ ...); এটি বিতরণের উপর নির্ভর করে । এক্সওয়াইএক্স

আসুন একটি সহজ উদাহরণ গ্রহণ করুন (যা আমি তৈরি করছি)। ধরা যাক আমরা বিচ্ছিন্ন সিস্টোলিক উচ্চ রক্তচাপের জন্য একটি ড্রাগ পরীক্ষা করছি (যেমন, শীর্ষ রক্তচাপের সংখ্যাটি খুব বেশি)। আসুন আরও শর্ত দিন যে সিস্টোলিক বিপি সাধারণত আমাদের রোগীর জনসংখ্যার মধ্যে 160০ এর 160 এবং এসডি এর মাধ্যমে বিতরণ করা হয় এবং রোগীরা প্রতিদিন যে ওষুধের প্রতিটি মিলিগ্রাম গ্রহণ করেন, সিস্টোলিক বিপি 1 মিমিএইচজি কম হয়। অন্য কথায়, এর আসল মান 160, এবং -1 এবং সত্য তথ্য উত্পন্নকরণ হ'ল: β 1 বি পি এস ওয়াই এস = 160 - 1 × প্রতিদিনের ওষুধের পরিমাণ + ε εβ0β1এক্স

B ইংরেজী বর্ণমালার দ্বিতীয় অক্ষরপিগুলিYগুলি=160-1×প্রতিদিন ড্রাগ ডোজ+ +εকোথায় ε~এন(0,9)
আমাদের কল্পিত গবেষণায়, 300 জন রোগীকে এলোমেলোভাবে 0mg (একটি প্লেসবো), 20mg বা 40mg এই নতুন ওষুধের জন্য প্রতিদিন নির্ধারিত করা হয়। (লক্ষ্য করুন যে সাধারণত বিতরণ করা হয় না)) তারপরে, ড্রাগ কার্যকর হওয়ার জন্য পর্যাপ্ত সময়ের পরে, আমাদের ডেটাগুলি দেখতে দেখতে পারে: এক্স

এখানে চিত্র বর্ণনা লিখুন

(আমি ডোজগুলিকে বিভক্ত করেছিলাম যাতে পয়েন্টগুলি এতটা ওভারল্যাপ না হয় যে তাদের পার্থক্য করা শক্ত ছিল।) এখন, এর বিতরণ (যেমন এটি প্রান্তিক / মূল বিতরণ) এবং অবশিষ্টাংশগুলি পরীক্ষা করে দেখুন: ওয়াই

এখানে চিত্র বর্ণনা লিখুন

কিউকিউ প্লটগুলি আমাদের দেখায় যে দূরবর্তীভাবে স্বাভাবিক নয়, তবে অবশিষ্টাংশগুলি যথাযথভাবে স্বাভাবিক। কার্নেল ঘনত্ব প্লটগুলি বিতরণগুলির আরও স্বজ্ঞাতভাবে অ্যাক্সেসযোগ্য চিত্র দেয়। এটা পরিষ্কার যে হয় ত্রি-মোডাল , যেহেতু অবশিষ্টাংশ চেহারা একটি সাধারণ বন্টনের অনেক মত চেহারা অনুমিত হয়। ওয়াইওয়াইওয়াই

কিন্তু কি লাগানো রিগ্রেশন মডেল সম্পর্কে, অ-স্বাভাবিক প্রভাব কি & (কিন্তু স্বাভাবিক অবশিষ্টাংশ)? এই প্রশ্নের উত্তর দেওয়ার জন্য, আমাদের এইরকম পরিস্থিতিতে রিগ্রেশন মডেলের সাধারণ পারফরম্যান্স সম্পর্কে আমরা উদ্বিগ্ন হতে পারি তা নির্দিষ্ট করতে হবে। প্রথম ইস্যুটি হ'ল, বেটাগুলি কি গড়ে গড়ে? (অবশ্যই, তারা কিছু কাছাকাছি নেমে আসবে, কিন্তু দীর্ঘকালীন সময়ে, বিটাগুলির নমুনা বিতরণগুলি কি সত্যের মূল্যবোধকে কেন্দ্র করে?) এটি পক্ষপাতিত্বের প্রশ্ন । আরেকটি বিষয় হ'ল আমরা কি পাই-মানগুলিকে বিশ্বাস করতে পারি? এটি হ'ল, নাল অনুমানটি সত্য হলে,এক্স পি < .05 β 1ওয়াইএক্সপি<.05মাত্র ৫% সময়? এই জিনিসগুলি নির্ধারণ করার জন্য, আমরা উপরের ডেটা উত্পন্নকরণ প্রক্রিয়া এবং এমন একটি সমান্তরাল কেস থেকে ডেটা অনুকরণ করতে পারি যেখানে ড্রাগের কোনও প্রভাব নেই, প্রচুর পরিমাণে। তারপরে আমরা এর নমুনা বিতরণগুলি প্লট করতে এবং কেন্দ্র করে কিনা তা পরীক্ষা করে দেখতে এবং নাল ক্ষেত্রে সম্পর্কটি কতটা 'গুরুত্বপূর্ণ' ছিল তাও পরীক্ষা করতে পারি: β1

set.seed(123456789)                       # this make the simulation repeatable

b0 = 160;   b1 = -1;   b1_null = 0        # these are the true beta values
x  = rep(c(0, 20, 40), each=100)          # the (non-normal) drug dosages patients get

estimated.b1s  = vector(length=10000)     # these will store the simulation's results
estimated.b1ns = vector(length=10000)
null.p.values  = vector(length=10000)

for(i in 1:10000){
  residuals = rnorm(300, mean=0, sd=3)
  y.works = b0 + b1*x      + residuals
  y.null  = b0 + b1_null*x + residuals    # everything is identical except b1

  model.works = lm(y.works~x)
  model.null  = lm(y.null~x)
  estimated.b1s[i]  = coef(model.works)[2]
  estimated.b1ns[i] = coef(model.null)[2]
  null.p.values[i]  = summary(model.null)$coefficients[2,4]
}
mean(estimated.b1s)       # the sampling distributions are centered on the true values
[1] -1.000084                  
mean(estimated.b1ns)
[1] -8.43504e-05               
mean(null.p.values<.05)   # when the null is true, p<.05 5% of the time
[1] 0.0532                   

এখানে চিত্র বর্ণনা লিখুন

এই ফলাফলগুলি দেখায় যে সবকিছু ঠিকঠাক কাজ করে।

আমি অঙ্গভঙ্গির মাধ্যমে যেতে হবে না, কিন্তু যদি হয়েছে স্বাভাবিকভাবে, বিতরণ অন্যথায় একই সেটআপ সঙ্গে, মূল / প্রান্তিক বন্টন স্বাভাবিকভাবে বিতরণ করা হত মাত্র অবশিষ্টাংশ হিসাবে (সঙ্গে একটি বৃহত্তর এসডি যদিও)। আমি এর স্কিওড ডিস্ট্রিবিউশনের প্রভাবগুলিও বর্ণনা করিনি (যা এই প্রশ্নের পিছনে উত্সাহ ছিল), তবে @ ডিক্রানমারসুপিয়ালের বক্তব্য সেই ক্ষেত্রে ঠিক ততটাই বৈধ, এবং এটিও একইভাবে চিত্রিত করা যেতে পারে।ওয়াই এক্সএক্স ওয়াইএক্স


1
সুতরাং অনুমানকারীদের সাধারণত বিতরণ করা অনুমান কেবল পি-মানগুলি সঠিক হওয়ার জন্য? অবশিষ্টাংশগুলি স্বাভাবিক না হলে পি-মানগুলি কেন ভুল হতে পারে?
অ্যাভোকাডো

3
@ লগন্যাকলস, এটি একটি নতুন প্রশ্ন হিসাবে আরও ভাল হতে পারে। যে কোনও হারে, হ্যাঁ এটি ডাব্লু / পি-মানগুলি সঠিক কিনা তা করতে হবে। যদি আপনার অবশিষ্টাংশগুলি পর্যাপ্ত পরিমাণে অস্বাভাবিক থাকে এবং আপনার এন কম হয়, তবে নমুনা বিতরণটি কীভাবে তাত্ত্বিক হয় তা থেকে পৃথক হবে। যেহেতু পি-মান হ'ল সেই নমুনা বিতরণটি আপনার পরীক্ষার পরিসংখ্যানের বাইরে কত, তাই পি-মানটি ভুল হবে।
গাং

0

এক্সওয়াইএক্স


3
প্রতিক্রিয়াটির প্রান্তিক বিতরণ মোটেই "অর্থহীন" নয়; এটি প্রতিক্রিয়াটির প্রান্তিক বিতরণ (এবং প্রায়শই সাধারণ ত্রুটিযুক্ত প্লেইন রিগ্রেশন ব্যতীত অন্য মডেলগুলিতে ইঙ্গিত দেওয়া উচিত)। আপনি ঠিক জোর দিয়েছিলেন যে শর্তাধীন বিতরণগুলি গুরুত্বপূর্ণ যখন আমরা প্রশ্নে মডেলটি বিনোদন করি তবে এটি বিদ্যমান দুর্দান্ত উত্তরের সাথে সহায়কভাবে যোগ করে না।
নিক কক্স
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.