রিগ্রেশন অবশিষ্টাংশ বিতরণ অনুমান


12

ত্রুটিগুলির উপর বন্টনমূলক ধারণাটি কেন রাখা দরকার, যেমন

ϵ iN ( 0 , σ 2 )yi=Xβ+ϵi , সাথে ।ϵiN(0,σ2)

কেন লিখছেন না

Y আমি ~ এন ( এক্স β , σ 2 )yi=Xβ+ϵi with, ,yiN(Xβ^,σ2)

যেখানে উভয় ক্ষেত্রে । আমি দেখেছি এটা জোর দিয়ে যে distributional অনুমানের ত্রুটি, স্থাপন করা হয় না ডেটা, কিন্তু ব্যাখ্যা ছাড়াই। ϵi=yiy^

আমি এই দুটি সূত্রের মধ্যে পার্থক্যটি সত্যই বুঝতে পারি না। কিছু জায়গাগুলি আমি দেখছি যে বিতরণের অনুমানগুলি ডেটাতে স্থাপন করা হচ্ছে (বেইসিয়ান লিট এটি বেশিরভাগরকম মনে হয়) তবে বেশিরভাগ সময় ধরে নেওয়া যায় ত্রুটিগুলি।

মডেলিংয়ের সময়, কেন একজন / অন্যের অনুমান দিয়ে শুরু করা বেছে নেওয়া উচিত?


প্রথমত, এটি "প্রয়োজনীয়" নয়, এটি আপনি কী করতে চান তা নির্ভর করে। কিছু ভাল উত্তর রয়েছে, তবে আমি মনে করি ক্রুক্সটি কার্যকারিতার অন্তর্নিহিত অনুমান, Xs অর্থে "y" ঘটায় এবং আপনি যদি সেভাবে দেখেন তবে আপনি দেখতে পাবেন যে y এর বিতরণ "কারণ" দ্বারা হয়েছে আরএসএসের বিতরণ, যা এক্স এবং ত্রুটিগুলি (যদি থাকে) বলে। আপনি খুব সীমিত বিতরণ অনুমান এবং বিশেষত স্বাভাবিকতা ছাড়াই প্রচুর একনোমেট্রিক্স করতে পারেন। সৃষ্টিকর্তাকে ধন্যবাদ.
প্যাট্রিকটি

3
এক্সβY( Y )=(Y)=এক্সβy^ নয় , এবং জনসংখ্যা গড় 's এটি নমুনা অনুমান হিসাবে একই নয়। কোনটি বলতে গেলে দ্বিতীয় জিনিসটি আসলে প্রথমটির মতো একই জিনিস নয় তবে আপনি যদি এটির প্রত্যাশা ( ) দিয়ে প্রতিস্থাপন করেন তবে দুটি সমতুল্য হবে। XβyE(y^)=E(y)=Xβ
গ্লেন_বি -রিনস্টেট মনিকা

is কী ? এবং যদি সাথে পরিবর্তিত হয় তবে কেন আলাদা হয় না ? আপনি কোন ভেক্টরটি ভেক্টর বা ম্যাট্রিক্স ব্যবহার করতে চান তা অনুগ্রহ করে আপনার মন তৈরি করুন। এখন যদি আমরা ধরে নিই যে আপনার স্বরলিপি চেয়ে বেশি: অর্থাৎ তোমাদের মধ্যে বন্টন সংজ্ঞায়িত নিজেই পদ এবং সমস্ত অন্যান্য পর্যবেক্ষণ ! Yআমিআমিএক্সβ Y =এক্স β Yআমি~এন(এক্স ' আমি (Σএক্সএক্স ' )-1Σএক্সY,σ2)YআমিYy^yiiXβy^=Xβ^yiN(xi(xjxj)1xjyj,σ2)yiyj
এমপিক্টাস

1
আমি প্রশ্নটিকে ন্যূনতম করে দিয়েছি কারণ আমি মনে করি যে স্বরলিপিটি বিভ্রান্তিকর এবং এরই মধ্যে বেশ কয়েকটি সূক্ষ্মভাবে বিরোধমূলক উত্তর এসেছে।
এমপিক্টাস

উত্তর:


9

লিনিয়ার রিগ্রেশন সেটিংয়ে উপর শর্তসাপেক্ষে বিশ্লেষণ করা এবং ফলাফলগুলি পাওয়া সাধারণ , অর্থাত "ডেটা" -র শর্তসাপেক্ষে। সুতরাং, আপনার যা প্রয়োজন তা হ'ল স্বাভাবিক, আপনার স্বাভাবিক হওয়ার জন্য প্রয়োজন । পিটার ফ্লমের উদাহরণটি যেমন চিত্রিত করেছে, একজনের স্বাভাবিকতা না থাকলে স্বাভাবিকতা থাকতে পারে এবং সুতরাং, যেহেতু আপনার যা প্রয়োজন তা স্বাভাবিকতা, এটি বোধগম্য ধারণা।y X ϵ ϵ y ϵXyXϵϵyϵ


9

আমি দ্বিতীয় সংজ্ঞা হিসাবে লিখতে হবে

yiN(Xiβ,σ2)

বা (কার্ল ওসকারের পরামর্শ হিসাবে +1)

yi|XiN(Xiβ,σ2)

অর্থাত্ মডেলিং অনুমানটি হ'ল রেসপন্স ভেরিয়েবলটি নিয়মিত বৈকল্পিকতা সহ সাধারণত রেগ্রেশন লাইনের (যা শর্তাধীন গড়ের একটি অনুমান) চারপাশে বিতরণ করা হয় । সাধারণত বিতরণ করা হয় এমনটি পরামর্শ দেওয়ার মতো এটি নয় , কারণ বিতরণের উপর নির্ভর করে ।Y আমি এক্স আমিσ2yiXi

আমি মনে করি আমি মেশিন লার্নিং সাহিত্যে এর অনুরূপ সূত্রগুলি দেখেছি; যতদূর দেখতে পাচ্ছি এটা প্রথম সংজ্ঞা সমতূল্য, আমি কাজ করেছি দ্বিতীয় সূত্র rexpress একটু ভিন্নভাবে নিষ্কাশন করা হয় 's এবং এর।Yϵiy^


3

পার্থক্যটি উদাহরণ সহকারে বর্ণনা করা সহজ। এখানে একটি সহজ:

ধরুন, ওয়াই বিমোডাল, সাথে একটি স্বতন্ত্র ভেরিয়েবল দ্বারা পরিবর্তিত পরিমিতি। যেমন ধরুন Y এর উচ্চতা এবং আপনার নমুনা (যে কারণেই হোক না কেন) জকি এবং বাস্কেটবল খেলোয়াড় রয়েছে। যেমনR

set.seed(123)
tall <- rnorm(100, 78, 3)
short <- rnorm(100, 60, 3)

height <- c(tall, short)
sport <- c(rep("B", 100), rep("H",100))

plot(density(height))

m1 <- lm(height~sport)
plot(m1)

প্রথম ঘনত্ব খুব অ-স্বাভাবিক। তবে মডেলটির অবশিষ্টাংশগুলি স্বাভাবিকের খুব কাছাকাছি।

কেন এইভাবে বিধিনিষেধ স্থাপন করা হয়েছে - আমি অন্য কাউকে তার উত্তর দিতে দেব।


1
yiϵi

সেক্ষেত্রে, হেটেরোসেসটাস্টিটি সমস্যা হবে এবং আপনাকে অন্য কোনও রূপের রিগ্রেশন বা সম্ভবত কিছু রূপান্তর ব্যবহার করতে হবে অথবা আপনি অন্য পরিবর্তনশীল যুক্ত করতে পারেন (এই নির্বোধ উদাহরণে, বাস্কেটবলে খেলা পজিশন এটি করতে পারে)।
পিটার ফ্লুম - মনিকা পুনরায়

আমি নিশ্চিত নই যে সূত্রটি ইঙ্গিত দিয়েছিল যে ys সাধারণত বিতরণ করা হয়, কেবলমাত্র তাদের একটি সাধারণ শর্তযুক্ত বিতরণ রয়েছে suggest
ডিকরান মার্শুপিয়াল

2


yiN(y^i,σε2)
y^xi

y^ixiβ^

yiN(xiβ^,σε2)

E[xiβ^]=E[xiβ^+E[N(0,σε2)]]=E[xiβ^+0]=E[xiβ^]
(এবং স্পষ্টতই রূপগুলি সমান)) অন্য কথায়, এটি অনুমানগুলির মধ্যে পার্থক্য নয় , কেবল একটি পার্থক্য নয় ational

সুতরাং প্রশ্নটি হয়ে ওঠে, প্রথম সূত্রটি ব্যবহার করে ধারণাটি উপস্থাপন করার পক্ষে কোনও কারণ আছে কি?

আমি মনে করি উত্তর দুটি কারণে হ্যাঁ :

  1. মানুষ প্রায়ই দ্বিধায় পরে কিনা কাঁচা ডেটা স্বাভাবিকভাবে বিতরণ করা উচিত (অর্থাত, ), অথবা যদি ডেটার উপর শর্তাধীন / ত্রুটি স্বাভাবিকভাবে বিতরণ করা উচিত (অর্থাত, / ), উদাহরণস্বরূপ, দেখুন : যদি অবশিষ্টাংশগুলি সাধারণত বিতরণ করা হয় তবে y হয় না?YXY|Xε
  2. লোকেরা প্রায়শই যা স্বাধীন বলে মনে হয়, কাঁচা তথ্য বা ত্রুটিগুলি বিভ্রান্ত করে। তদুপরি, আমরা প্রায়শই এই সত্যটি উল্লেখ করি যে কোনও কিছু আইআইডি হওয়া উচিত (স্বতন্ত্র এবং একইভাবে বিতরণ করা); আপনি যদি শর্তে ভাবছেন তবে এটি বিভ্রান্তির আর একটি সম্ভাব্য উত্স হতে পারে, যেহেতু স্বাধীন হতে পারে, তবে নাল অনুমানটি ধরে না রাখলে (তবে এর অর্থটি পৃথক হতে পারে) তবে অভিন্নভাবে বিতরণ করা যায় না। ওয়াই | এক্সY|XY|X

আমি বিশ্বাস করি যে এই বিভ্রান্তিগুলি সম্ভবত প্রথমটির চেয়ে দ্বিতীয় সূত্রটি বেশি ব্যবহার করছে।


1
@ গ্লেন_বি, আমি আপনার মন্তব্য অনুসরণ করি না। আমার দাবি নয় সমান না, বরং আরো সমান । সাবস্ক্রিপড i পর্যবেক্ষণগুলি সূচিত করে প্রাসঙ্গিক। ধারণা যে পূর্বাভাস মান হয় , একজন প্রদত্ত পর্যবেক্ষণ জন্য । এই W / জনসংখ্যা গড় কিছুই করার আছে । (মনে হচ্ছে আমি আমার বিটাতে টুপি যুক্ত করতে ভুলে গিয়েছিলাম, যদিও আমি এখনই সংশোধন করেছি।) এক্সβ Y আমিএক্সআমি β আমি Y আমিএক্সআমি β ওয়াইy^Xβy^ixiβ^iy^ixiβ^Y
গং - মনিকা পুনরায়

@Glen_b যদি সম্ভবও হয় নমুনা মানে এটি হবে বদলে । আমি প্রথমে স্বরলিপি পাশাপাশি বিভ্রান্তিকর, কিন্তু আসলে সেখানে পাওয়া গেছে বিবৃতি থেকে অনুসরণ করে এবং । এই দুটি জিনিসই সত্য হওয়ার জন্য, কেবলমাত্র হতে পারে । Y Y =এক্সβYআমি=এক্সβ+ +εআমিεআমি=Yআমি - Y Y এক্সβy¯y^y^=Xβyi=Xβ+ϵiϵi=yiy^y^Xβ
ডিকরান মার্শুপিয়াল
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.