সাধারণ ন্যূনতম স্কোয়ারের অনুমানটি এখনও সাধারণ-ত্রুটিজনিত ত্রুটির মধ্যে যুক্তিসঙ্গত অনুমানক। বিশেষত, গাউস-মার্কভ থিওরেম বলেছে যে সাধারণ ন্যূনতম স্কোয়ারের অনুমান যতক্ষণ ত্রুটি হয় ততক্ষণ রিগ্রেশন কো-স্যাফিসিয়েন্টগুলির ('সেরা' অর্থ সর্বোত্তম যার অর্থ সর্বোত্তম) এর সেরা লিনিয়ার নিরপেক্ষ অনুমানক (বিএলইউ) is
(1) এর অর্থ শূন্য
(2) অসম্পর্কিত হয়
(3) ধ্রুব বৈকল্পিকতা আছে
এখানে লক্ষ্য করুন যে এখানে স্বাভাবিকতার কোনও শর্ত নেই (বা ত্রুটিগুলি আইআইডি হওয়ার কোনও শর্তও )।
আপনি যখন আত্মবিশ্বাসের ব্যবধান এবং / বা মূল্যগুলি পাওয়ার চেষ্টা করছেন তখন স্বাভাবিকতার শর্তটি কার্যকর হয়। @ মিশেল চেরনিকের উল্লেখ হিসাবে (+1, বিটিডাব্লু) ততক্ষণ ত্রুটিগুলি স্বাভাবিক হওয়ার সময় পর্যন্ত যখন আপনি স্বাভাবিকতা থেকে প্রস্থান পদ্ধতি দ্বারা পরিচালিত হতে পারে ততক্ষণ আপনি দৃust় সূচনা ব্যবহার করতে পারেন - উদাহরণস্বরূপ, (যেমন আমরা এই থ্রেডে আলোচনা করেছি ) হুবার এম সত্য-ত্রুটি বিতরণ যখন স্বাভাবিক এবং দীর্ঘ লেজযুক্ত বিতরণের মধ্যে মিশ্রণ হয় (যা আপনার উদাহরণটি দেখে মনে হয়) তবে স্বাভাবিকতা থেকে অন্য প্রস্থানগুলির জন্য সহায়ক নাও হতে পারে -স্টিমেটর মজবুত অনুমান সরবরাহ করতে পারে। মাইলের মধ্যে একটি আকর্ষণীয় সম্ভাবনা রয়েছে যা ওএলএস অনুমানের জন্য আস্থার ব্যবধানগুলি অর্জন করার জন্য বুটস্ট্র্যাপিং এবং হুবার-ভিত্তিক অনুমানের সাথে এটি কীভাবে তুলনা করে তা দেখে।পিএম
সম্পাদনা: আমি প্রায়শই শুনেছি যে আপনি অ-স্বাভাবিক ত্রুটিগুলি যত্ন নেওয়ার জন্য কেন্দ্রীয় সীমাবদ্ধ তত্ত্বের উপর নির্ভর করতে পারেন - এটি সর্বদা সত্য নয় (আমি কেবল প্রতিবাদের উদাহরণগুলির বিষয়ে বলছি না যেখানে উপপাদ্য ব্যর্থ হয়)। ইন বাস্তব তথ্য উদাহরণ ওপি বোঝায়, আমরা একটি বড় নমুনা আকার আছে কিন্তু একটি দীর্ঘ-টেইলড ত্রুটি বন্টন প্রমাণ দেখতে পারেন - পরিস্থিতিতে যেখানে আপনি দীর্ঘ ত্রুটি টেইলড আছে, আপনি অগত্যা দিতে কেন্দ্রীয় সীমা উপপাদ্য উপর নির্ভর করতে পারবে না বাস্তবসম্মত সসীম নমুনা আকারের জন্য আপনি আনুমানিক পক্ষপাতহীন অনুমান। উদাহরণস্বরূপ, ত্রুটিগুলি যদি 2.01 ডিগ্রির স্বাধীনতার সাথে একটি ডিস্ট্রিবিউশন অনুসরণ করে (যা স্পষ্টভাবে এর বেশি নয়টি2.01 ওপি-র ডেটা-তে দেখা ত্রুটিগুলির তুলনায় দীর্ঘ-লেজযুক্ত), সহগের প্রাক্কলনগুলি সাধারণভাবে বিতরণ করা হয়, তবে অন্যান্য সংক্ষিপ্ত-লেজযুক্ত বিতরণগুলির তুলনায় এটি "কিক ইন" করতে অনেক বেশি সময় নেয়।
নীচে, আমি একটি অশোধিত সিমুলেশন সঙ্গে প্রকট মধ্যে R
যে যখন , যেখানে ε আমি ~ T 2.01 , এর স্যাম্পলিং বন্টন β 1 এখনও বেশ দীর্ঘ টেইলড এমনকি যখন নমুনা আকার হয় এন = 4000 :Yআমি= 1 + 2 এক্সআমি+ + εআমিεআমি~ T2.01β^1n = 4000
set.seed(5678)
B = matrix(0,1000,2)
for(i in 1:1000)
{
x = rnorm(4000)
y = 1 + 2*x + rt(4000,2.01)
g = lm(y~x)
B[i,] = coef(g)
}
qqnorm(B[,2])
qqline(B[,2])