সম্ভাব্য প্রভাবশালী ডেটাপয়েন্টগুলি নির্ণয়ের ক্ষেত্রে কাঁচা অনুমানিত অবশিষ্টাংশগুলির তুলনায় "অভ্যন্তরীণভাবে স্টাডিটাইজড অবশিষ্টাংশগুলি" কী কী সুবিধা দেয়?


10

আমি এটি জিজ্ঞাসা করার কারণটি কারণ এটি মনে হয় যে অভ্যন্তরীণভাবে অধ্যয়নকৃত অবশিষ্টাংশগুলি কাঁচা অনুমানের অবশিষ্টাংশগুলির মতো একই প্যাটার্নযুক্ত রয়েছে। কেউ যদি কোনও ব্যাখ্যা দিতে পারে তবে এটি দুর্দান্ত হবে।

উত্তর:


13

ডিজাইন ম্যাট্রিক্স (একটি কলাম আপনার অনুমানকারীদের অনুসরণ করে) সহ একটি রিগ্রেশন মডেল , পূর্বাভাসগুলি (যেখানে "টুপি-ম্যাট্রিক্স"), এবং অবশিষ্টাংশ। রিগ্রেশন মডেল ধরে নিয়েছে যে সত্য ত্রুটিগুলি সবার একই বৈকল্পিকতা রয়েছে (হোমোস্কেস্টেটিসিটি):y=Xβ+ϵX1y^=X(XX)1Xy=HyHe=yy^ϵ

homoskedasticity

অবশিষ্টগুলির কোভেরিয়েন্স ম্যাট্রিক্স হ'ল । এর অর্থ কাঁচা অবশিষ্টাংশের বিভিন্ন - ম্যাট্রিক্স । তির্যক উপাদান টুপি-মান ।V(e)=σ2(IH)eiσ2(1hii)σ2(IH)Hhii

ভেরিয়েন্স 1 এর সাথে সত্যিকারের মানসম্পন্ন রেসিডুয়ালগুলি । সমস্যাটি হ'ল ত্রুটিটির ভিন্নতা অজানা, এবং অভ্যন্তরীণ / বাহ্যিকভাবে স্টুডেন্টাইজড রেসিডুয়ালগুলি একটি অনুমানের জন্য নির্দিষ্ট পছন্দগুলি থেকে ফলাফল ।e/(σ1hii)σ e/(σ^1hii)σ^

যেহেতু কাঁচা অবশিষ্টাংশ হিটোস্কেস্টাস্টিক হিসাবে প্রত্যাশা করা হয় এমনকি যদি হোমসকেস্টাস্টিক হয়, তবে কাঁচা অবশিষ্টাংশ মানসম্মত বা স্টুডেন্টাইজড রেসিডুয়ালের চেয়ে সমকামী ধারণা অনুধাবনের ক্ষেত্রে সমস্যাগুলি সনাক্ত করার জন্য তাত্ত্বিকভাবে কম উপযুক্ত।ϵ


দুটি ভিন্ন ধরণের অবশিষ্টাংশের (পাশাপাশি বাহ্যিকভাবে স্টুডেন্টাইজড অবশিষ্টাংশ) মধ্যে সংজ্ঞাগত পার্থক্য আমার কাছে স্পষ্ট। অনুশীলনে, তবে, আমি মনে করি না যে আমি এমন কেসগুলির মুখোমুখি হয়েছি (কমপক্ষে আমার নিজের ডেটা দিয়ে) যেখানে অভ্যন্তরীণভাবে স্টাডিজড রেসিডুয়ালের অনুমানিত অবশিষ্টগুলির তুলনায় আলাদা স্বতন্ত্র প্যাটার্ন রয়েছে। অন্যদিকে, বাহ্যিকভাবে স্টাটেডাইজড অবশিষ্টাংশগুলি সম্ভাব্যভাবে অনুমানিত অবশিষ্টাংশগুলির চেয়ে আলাদা স্বতন্ত্র প্যাটার্ন প্রদর্শন করতে পারে। * আমি বলছি না যে দুই প্রকারের অবশিষ্টাংশ একই রকম। আমি তাদের সাধারণ নিদর্শনগুলি উল্লেখ করছি।

@AlexH। আমি সম্মত হই যে আমি যে বিবৃত সুবিধাটি যুক্ত করলাম তা তাত্ত্বিক । কাঁচা অবশিষ্টাংশগুলি বিভ্রান্ত করছে এমন একটি অনুকরণীয় অভিজ্ঞতামূলক পরিস্থিতি তৈরি করা, এবং স্টাডেন্টাইজড অবশিষ্টাংশগুলি শর্তাধীন বিতরণগুলির আরও সঠিক চিত্র সরবরাহ করে যা একটি ভাল সংযোজন হবে।
ক্যারাকাল

12

আপনি কী ধরনের ডেটাতে আপনার পরীক্ষা প্লট করেছেন? সমস্ত অনুমানগুলি ধরে রাখলে (বা কাছে এসে) তখন আমি কাঁচা এবং স্টাটিজাইজড অবশিষ্টাংশগুলির মধ্যে খুব বেশি পার্থক্য আশা করতে পারি না, যখন প্রধান প্রভাবশালী পয়েন্টগুলি থাকে তখন মূল সুবিধা হয়। এই (সিমুলেটেড) ডেটা বিবেচনা করুন যা ইতিবাচক রৈখিক প্রবণতা এবং একটি অত্যন্ত প্রভাবশালী আউটলেট রয়েছে:

এখানে চিত্র বর্ণনা লিখুন

কাটা অবশিষ্টাংশগুলি বনাম লাগানো মানগুলির প্লটটি এখানে রয়েছে:

এখানে চিত্র বর্ণনা লিখুন

লক্ষ্য করুন যে আমাদের প্রভাবশালী পয়েন্টের অবশিষ্টাংশের মান বাকি পয়েন্টগুলির সর্বনিম্ন এবং সর্বাধিক অবশিষ্টাংশের তুলনায় 0 এর কাছাকাছি (এটি 3 অত্যন্ত চরম কাঁচা অবশিষ্টাংশে নয়)।

মানকীকরণের (অভ্যন্তরীণভাবে স্টাটেনাইজড) অবশিষ্টাংশগুলি সহ এখন প্লটটি এখানে রয়েছে:

এখানে চিত্র বর্ণনা লিখুন

এই চক্রান্তে মানকৃত অবশিষ্টগুলি দাঁড়ায় কারণ এর প্রভাব হিসাবে ধরা পড়ে।

এই সাধারণ উদাহরণে এটি কি সহজে চলছে তা দেখতে সহজ, তবে যদি আমাদের 1 বেশি ভেরিয়েবল এবং একটি পয়েন্ট খুব প্রভাবশালী ছিল তবে 2 ত্রিমাত্রিক প্লটগুলিতে অস্বাভাবিক নয়? এটি কাঁচা অবশিষ্টাংশের প্লট থেকে সুস্পষ্ট হবে না, তবে স্টুডেন্টাইজড অবশিষ্টাংশগুলি সেই অবশিষ্টাংশকে আরও চরম হিসাবে দেখায়।x

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.