কেন এটি নিরপেক্ষ অনুমানকারীকে বেশি পছন্দ করা যায় তা বহুবার স্পষ্ট। তবে, এমন কোনও পরিস্থিতি রয়েছে যার অধীনে আমরা বাস্তবে কোনও পক্ষপাতহীন ব্যক্তির চেয়ে পক্ষপাতদুষ্ট অনুমানকারীকে পছন্দ করতে পারি?
কেন এটি নিরপেক্ষ অনুমানকারীকে বেশি পছন্দ করা যায় তা বহুবার স্পষ্ট। তবে, এমন কোনও পরিস্থিতি রয়েছে যার অধীনে আমরা বাস্তবে কোনও পক্ষপাতহীন ব্যক্তির চেয়ে পক্ষপাতদুষ্ট অনুমানকারীকে পছন্দ করতে পারি?
উত্তর:
হ্যাঁ। প্রায়শই এটি হয় যে আমরা গড় স্কোয়ার ত্রুটিটি হ্রাস করতে আগ্রহী, যা ভেরিয়েন্স + বায়াস স্কোয়ারে পচে যেতে পারে । এটি মেশিন লার্নিংয়ের একটি অত্যন্ত মৌলিক ধারণা এবং সাধারণভাবে পরিসংখ্যান। প্রায়শই আমরা দেখতে পাই যে পক্ষপাতের ক্ষেত্রে সামান্য বৃদ্ধি পুরো পরিমাণে এমএসই হ্রাস হ্রাস করে বৈকল্পিকতায় যথেষ্ট পরিমাণ হ্রাস নিয়ে আসতে পারে।
অবশেষে, এখানে একটি ছবি। মনে করুন যে এটি দুটি অনুমানকারীদের নমুনা বিতরণ এবং আমরা 0 টি অনুমান করার চেষ্টা করছি The চাটুকারটি একটি পক্ষপাতহীন, তবে আরও অনেক পরিবর্তনশীল। সামগ্রিকভাবে আমি মনে করি আমি পক্ষপাতদুষ্টটি ব্যবহার করতে পছন্দ করব, কারণ গড়পড়তা হলেও আমরা সঠিক হতে পারি না, সেই অনুমানের কোনও একক উদাহরণের জন্য আমরা আরও নিকটে থাকব।
x <- cbind(0:3, 2:5, runif(4, -.001, .001)) ## almost reduced rank
> x
[,1] [,2] [,3]
[1,] 0 2 0.000624715
[2,] 1 3 0.000248889
[3,] 2 4 0.000226021
[4,] 3 5 0.000795289
(xtx <- t(x) %*% x) ## the inverse of this is proportional to Var(beta.hat)
[,1] [,2] [,3]
[1,] 14.0000000 26.00000000 3.08680e-03
[2,] 26.0000000 54.00000000 6.87663e-03
[3,] 0.0030868 0.00687663 1.13579e-06
eigen(xtx)$values ## all eigenvalues > 0 so it is PD, but not by much
[1] 6.68024e+01 1.19756e+00 2.26161e-07
solve(xtx) ## huge values
[,1] [,2] [,3]
[1,] 0.776238 -0.458945 669.057
[2,] -0.458945 0.352219 -885.211
[3,] 669.057303 -885.210847 4421628.936
solve(xtx + .5 * diag(3)) ## very reasonable values
[,1] [,2] [,3]
[1,] 0.477024087 -0.227571147 0.000184889
[2,] -0.227571147 0.126914719 -0.000340557
[3,] 0.000184889 -0.000340557 1.999998999
আপডেট 2
প্রতিশ্রুতি হিসাবে, এখানে আরও পুঙ্খানুপুঙ্খ উদাহরণ's
দুটি কারণ মাথায় আসে, উপরের এমএসই ব্যাখ্যাটি বাদ দিয়ে (প্রশ্নের সাধারণভাবে গৃহীত উত্তর):
বলের সীমানায়, এটি একটি বেমানান পরীক্ষায় পরিণত হয়, এটি কখনই জানে না কী চলছে এবং ঝুঁকিটি বিস্ফোরিত হয়।
দক্ষ পরীক্ষার অর্থ হল আপনার আগ্রহী জিনিসটি আপনি অনুমান করবেন না, তবে এটির একটি প্রায় অনুমান, কারণ এটি আরও শক্তিশালী পরীক্ষা সরবরাহ করে। আমি এখানে সবচেয়ে ভাল উদাহরণটি বলতে পারি লজিস্টিক রিগ্রেশন। মানুষ সর্বদাআপেক্ষিক ঝুঁকি রিগ্রেশন সঙ্গে লজিস্টিক রিগ্রেশন বিভ্রান্ত। উদাহরণস্বরূপ, ধূমপায়ীদের ধূমপায়ীদের তুলনায় ক্যান্সারের তুলনায় 1.6-এর একটি অনুপাতের অর্থ এই নয় যে "ধূমপায়ীদের মধ্যে ক্যান্সারের ঝুঁকি ছিল 1.6"। BZZT ভুল। এটি একটি ঝুঁকি অনুপাত। তাদের প্রযুক্তিগতভাবে ফলাফলের 1.6 গুণ প্রতিকূলতা ছিল (অনুস্মারক: বিজোড়গুলি = সম্ভাবনা / (1-সম্ভাব্যতা))। যাইহোক, বিরল ইভেন্টগুলির জন্য, প্রতিকূলতা অনুপাত ঝুঁকির অনুপাতের প্রায় কাছাকাছি। আপেক্ষিক ঝুঁকি রিগ্রেশন রয়েছে, তবে রূপান্তরকরণের সাথে এটির অনেকগুলি সমস্যা রয়েছে এবং এটি লজিস্টিক রিগ্রেশন হিসাবে শক্তিশালী নয়। সুতরাং আমরা আরআর এর একটি পক্ষপাতিত্বমূলক অনুমান হিসাবে রিপোর্ট করি (বিরল ঘটনাগুলির জন্য), এবং আরও দক্ষ সিআই এবং পি-মান গণনা করি।