স্বজ্ঞাতভাবে "পক্ষপাত" কি?

আমি লিনিয়ার রিগ্রেশন বিশ্লেষণের প্রসঙ্গে পক্ষপাতের ধারণাটি উপলব্ধি করতে সংগ্রাম করছি ling

পক্ষপাতের গাণিতিক সংজ্ঞা কী?
ঠিক পক্ষপাতদুষ্ট এবং কেন / কীভাবে?
উদাহরণস্বরূপ উদাহরণ?

উত্তর:

বায়াস হ'ল একটি অনুমানকারীর প্রত্যাশিত মান এবং সত্য মানের অনুমানের মধ্যে পার্থক্য। উদাহরণস্বরূপ, একটি সাধারণ এলোমেলো নমুনার (এসআরএস) জন্য নমুনা অর্থ জনসংখ্যার পক্ষপাতহীন অনুমানকারী কারণ আপনি যদি সম্ভাব্য সমস্ত এসআরএসকে তার উপায়গুলি খুঁজে বের করেন এবং সেগুলির মাধ্যমটি গ্রহণ করেন তবে আপনি জনসংখ্যার গড় (সীমাবদ্ধতার জন্য) পাবেন জনসংখ্যা এটি এটি দেখানোর জন্য কেবল বীজগণিত)। তবে আমরা যদি কোনও নমুনা ব্যবস্থা ব্যবহার করি যা কোনওভাবে মান সম্পর্কিত হয় তবে গড়টি পক্ষপাতদুষ্ট হয়ে উঠতে পারে, আয়ের বিষয়ে প্রশ্ন জিজ্ঞাসা করে একটি এলোমেলো অঙ্কের ডায়ালিং নমুনাটি ভাবেন।

এগুলি এমন কিছু অনুমানক যা প্রাকৃতিকভাবে পক্ষপাতদুষ্ট। ছাঁটাই করা গড়টি হ'ল জনসংখ্যা / বিতরণের জন্য পক্ষপাতদুষ্ট হবে। স্ট্যান্ডার্ড ভেরিয়েন্সটি এসআরএসের পক্ষে পক্ষপাতহীন, যদি জনসংখ্যার গড়টি ডিনোমিনেটর সাথে ব্যবহার করা হয় বা নমুনা গড়টি ডিনোমিনেটর ব্যবহার করা হয় । $n$ $n-1$

এখানে আর ব্যবহার করে একটি সাধারণ উদাহরণ দেওয়া হল, আমরা গড় থেকে 0 এবং স্ট্যান্ডার্ড বিচ্যুতি 1 দিয়ে একটি সাধারণ থেকে একগুচ্ছ নমুনা উত্পন্ন করি, তারপরে নমুনাগুলির থেকে গড় গড়, বিবর্তন এবং মানক বিচ্যুতি গণনা করি। লক্ষ্য করুন যে গড় এবং ভেরিয়েন্সের গড়গুলি প্রকৃত মানগুলির সাথে কতটা কাছাকাছি রয়েছে (নমুনা ত্রুটির অর্থ তারা সঠিক হবে না), এখন গড় এসডি তুলনা করুন, এটি একটি পক্ষপাতদুষ্ট অনুমানকারী (যদিও বিশাল পক্ষপাতদুষ্ট নয়)।

> tmp.data <- matrix( rnorm(10*1000000), ncol=10 )
> mean( apply(tmp.data, 1, mean) )
[1] 0.0001561002
> mean( apply(tmp.data, 1, var) )
[1] 1.000109
> mean( apply(tmp.data, 1, sd) )
[1] 0.9727121

রিগ্রেশনে আমরা স্টেপওয়াস রিগ্রেশন করে byালুগুলির পক্ষপাতদুষ্ট অনুমানকারী পেতে পারি। একটি পরিবর্তনশীলকে ধাপে ধাপে রিগ্রেশনে রাখার সম্ভাবনা বেশি থাকে যদি আনুমানিক slালটি 0 থেকে আরও বেশি হয় এবং 0 এর কাছাকাছি থাকলে বাদ পড়ার সম্ভাবনা বেশি থাকে, সুতরাং এটি পক্ষপাতমূলক নমুনা এবং চূড়ান্ত মডেলটির slালু আরও ঝোঁক থাকবে সত্য opeালের চেয়ে 0 থেকে 0 থেকে দূরে নির্বাচন পক্ষপাত প্রতিরোধ করার জন্য লাসো এবং রিজ রিগ্রেশন পক্ষপাতের মতো কৌশল 0 এর দিকে opালু।

— গ্রেগ স্নো
সূত্র

এসআরএস?

$\text{ }$

— মূল

@ কার্ডিনালাল সরল র্যান্ডম নমুনা।

— whuber

@ শুভঃ বাহ! সংক্ষিপ্ত বিবরণটি যখন বোঝা যায়, আমি আর কোনও আনুষ্ঠানিক সেটিংসে এসে দেখে মনে করি না। এমন কোনও সাবফিল্ড বা প্রয়োগকৃত অঞ্চল রয়েছে যেখানে এটি একটি "স্ট্যান্ডার্ড" ইনিশিয়ালিজম?

— মূল কার্ডিনাল

@cardinal দেখুন en.wikipedia.org/wiki/Simple_random_sample

— whuber

(+1) @ হুঁশিয়ার সম্পাদনা এই উত্তরটি পরিষ্কার করতে সহায়ক ছিল।

— মূল কার্ডিনাল

বায়াস মানে হল যে অনুমানের প্রত্যাশিত মান জনসংখ্যার প্যারামিটারের সমান নয়।

স্বচ্ছলভাবে একটি রিগ্রেশন বিশ্লেষণে, এর অর্থ হ'ল প্যারামিটারগুলির একটির অনুমান খুব বেশি বা খুব কম। যাইহোক, সাধারণ সর্বনিম্ন স্কোয়ারের রিগ্রেশন অনুমানগুলি হ'ল ব্লু, যা সর্বোত্তম রৈখিক নিরপেক্ষ अनुमानক হিসাবে দাঁড়িয়েছে। অন্যান্য ধরনের পেনশনগুলিতে, প্যারামিটারের অনুমানগুলি পক্ষপাতদুষ্ট থাকতে পারে। এটি একটি ভাল ধারণা হতে পারে, কারণ প্রায়শই পক্ষপাত এবং বৈসাদৃশ্যগুলির মধ্যে একটি বাণিজ্য থাকে। উদাহরণস্বরূপ, কোলাইনারিটি থাকা অবস্থায় কখনও কখনও রিজ রিগ্রেশন অনুমানের বৈচিত্র্য হ্রাস করতে ব্যবহৃত হয়।

একটি সাধারণ উদাহরণ এটি আরও ভাল চিত্রিত করতে পারে, যদিও রিগ্রেশন প্রসঙ্গে নয়। ধরুন আপনার ওজন 150 পাউন্ড (ভারসাম্য স্কেল যাচাই করে যা আপনাকে একটি ঝুড়িতে এবং অন্য ঝুড়িতে ওজনের একটি গাদা)। এখন, আপনার কাছে দুটি বাথরুম স্কেল রয়েছে। আপনি প্রতিটি নিজের উপর 5 বার ওজন।

স্কেল 1 152, 151, 151.5, 150.5 এবং 152 এর ওজন দেয়।

স্কেল 2 145, 155, 154, 146 এবং 150 এর ওজন দেয়।

স্কেল 1 পক্ষপাতদুষ্ট, তবে তারতম্য কম; ওজনের গড়পড়তা আপনার আসল ওজন নয়। স্কেল 2 নিরপেক্ষ (औसतটি 150), তবে এর চেয়ে অনেক বেশি বৈকল্পিক রয়েছে।

কোন স্কেল "ভাল"? এটি স্কেলটি আপনি কী করতে চান তার উপর নির্ভর করে।

— পিটার ফ্লুম - মনিকা পুনরায়
সূত্র

পক্ষপাতিত্বের সংজ্ঞাটি সঠিক হলেও, আমি আশঙ্কা করি যে উদাহরণগুলি এটিকে অসত্যতার সাথে বিভ্রান্ত করে, যা একেবারে আলাদা কিছু! বায়াস একটি পরিসংখ্যান পদ্ধতির সম্পত্তি (একটি অনুমানক) যেখানে নির্ভুলতা একটি পরিমাপ প্রক্রিয়ার সম্পত্তি । (-1)।

— হোবার

@ শুভ: হ্যাঁ, আমি এর সাথে একমত এবং, আমি এখনও মনে করি যে, তবুও, এটি গাণিতিক প্রত্যাশা এবং একটি নমুনা গড়ের মধ্যে পার্থক্য পরিষ্কার করা প্রয়োজন, কারণ তারা পক্ষপাতের সাথে সম্পর্কিত।

— কার্ডিনাল

না, আমি "অপ্রতুলতা" (যা সংজ্ঞায়িত করা অত্যন্ত কঠিন) সম্পর্কে কিন্তু "বৈকল্পিকতা" সম্পর্কে কিছু বলার চেষ্টা করছিলাম না। একটি স্কেল নিরপেক্ষ, অন্য স্কেল কম বৈকল্পিক আছে। আমি "নির্ভুল" বা "নির্ভুলতা" শব্দটি ব্যবহার করিনি। এমন একটি স্কেল যা আপনার ওজন খুব বেশি (বা খুব কম) অনুমান করতে পারে তা পক্ষপাতদুষ্ট।

— পিটার ফ্লুম - মনিকা পুনরায়

তবে "পক্ষপাত" এর এই বোধটি কেবল ভুলের সমার্থক শব্দ; এটি আপনি প্রথম লাইনে যে সংজ্ঞা দিয়েছিলেন সেটি একই নয়। অধিকন্তু, @ কার্ডিনাল পয়েন্ট হিসাবে, উদাহরণটি একটি নির্দিষ্ট নমুনার গড়ের সাথে প্রত্যাশাকেও বিভ্রান্ত করে।

— whuber

আমি এখানে @ হুবুকারের সাথে একমত ওপি জিজ্ঞাসা করছে যে পক্ষপাতিত্বের (যথাযথ) অর্থে, এটি পক্ষপাতদুষ্ট বা পক্ষপাতহীন কোনও স্কেল নয় , বরং এটির পরিমাপ থেকে আপনার ওজনের যে পরিমাণ অনুমান করা যায়!

— মূল

লিনিয়ার রিগ্রেশন বিশ্লেষণে, পক্ষপাতটি সেই ত্রুটিটিকে বোঝায় যা বাস্তব জীবনের সমস্যাটি প্রায় সহজ মডেল দ্বারা জটিল হতে পারে, যা জটিল হতে পারে by সাধারণ ভাষায়, আপনি একটি সাধারণ রৈখিক মডেল ধরেছেন যেমন y * = (a *) x + b * যেখানে বাস্তব জীবনের মতো ব্যবসায়ের সমস্যা y = ax ^ 3 + bx ^ 2 + c হতে পারে।

এটি বলা যেতে পারে যে কোনও রিগ্রেশন সমস্যা থেকে প্রত্যাশিত পরীক্ষা এমএসই (মানে স্কোয়ারড ত্রুটি) নীচে হিসাবে পচে যেতে পারে। E (y0 - f * (x0)) ^ 2 = ভার (চ * (x0)) + [বায়াস (চ * (x0))] ^ 2 + ভার (ই)

f * -> লিনিয়ার রিগ্রেশন মডেল y0 -> পরীক্ষার তথ্য x0- এ রেকর্ড করা আসল প্রতিক্রিয়া মান -> পরীক্ষার ডেটাতে রেকর্ড করা মূল প্রতিক্রিয়ার মান ই -> অপরিবর্তনীয় ত্রুটি সুতরাং, লক্ষ্যটি একটি মডেল পৌঁছানোর জন্য একটি সেরা পদ্ধতি নির্বাচন করছে যা কম বৈকল্পিকতা এবং কম পক্ষপাত অর্জন করে।

দ্রষ্টব্য: ট্র্যাভার হাস্টি এবং রবার্ট তিবশিরানি দ্বারা স্ট্যাটাসটিকাল লার্নিংয়ের একটি ভূমিকা এই বিষয়ে একটি ভাল অন্তর্দৃষ্টি রয়েছে

— গঙ্গা
সূত্র

এটি প্রায়শই গ্রহণযোগ্য উত্তরে প্রদত্ত পক্ষপাতিত্বের মানক সংজ্ঞা দিয়ে বিভ্রান্ত না করার জন্য "মডেল মিস-স্পেসিফিকেশন ত্রুটি" এর মতো কিছু দ্বারা উল্লেখ করা হয়। অন্যথায় ওএলএস হ'ল রেজিস্ট্রারদের সহগগুলির একটি নিরপেক্ষ অনুমানকারী (

— whuber