আমি লিনিয়ার রিগ্রেশন বিশ্লেষণের প্রসঙ্গে পক্ষপাতের ধারণাটি উপলব্ধি করতে সংগ্রাম করছি ling
পক্ষপাতের গাণিতিক সংজ্ঞা কী?
ঠিক পক্ষপাতদুষ্ট এবং কেন / কীভাবে?
উদাহরণস্বরূপ উদাহরণ?
আমি লিনিয়ার রিগ্রেশন বিশ্লেষণের প্রসঙ্গে পক্ষপাতের ধারণাটি উপলব্ধি করতে সংগ্রাম করছি ling
পক্ষপাতের গাণিতিক সংজ্ঞা কী?
ঠিক পক্ষপাতদুষ্ট এবং কেন / কীভাবে?
উদাহরণস্বরূপ উদাহরণ?
উত্তর:
বায়াস হ'ল একটি অনুমানকারীর প্রত্যাশিত মান এবং সত্য মানের অনুমানের মধ্যে পার্থক্য। উদাহরণস্বরূপ, একটি সাধারণ এলোমেলো নমুনার (এসআরএস) জন্য নমুনা অর্থ জনসংখ্যার পক্ষপাতহীন অনুমানকারী কারণ আপনি যদি সম্ভাব্য সমস্ত এসআরএসকে তার উপায়গুলি খুঁজে বের করেন এবং সেগুলির মাধ্যমটি গ্রহণ করেন তবে আপনি জনসংখ্যার গড় (সীমাবদ্ধতার জন্য) পাবেন জনসংখ্যা এটি এটি দেখানোর জন্য কেবল বীজগণিত)। তবে আমরা যদি কোনও নমুনা ব্যবস্থা ব্যবহার করি যা কোনওভাবে মান সম্পর্কিত হয় তবে গড়টি পক্ষপাতদুষ্ট হয়ে উঠতে পারে, আয়ের বিষয়ে প্রশ্ন জিজ্ঞাসা করে একটি এলোমেলো অঙ্কের ডায়ালিং নমুনাটি ভাবেন।
এগুলি এমন কিছু অনুমানক যা প্রাকৃতিকভাবে পক্ষপাতদুষ্ট। ছাঁটাই করা গড়টি হ'ল জনসংখ্যা / বিতরণের জন্য পক্ষপাতদুষ্ট হবে। স্ট্যান্ডার্ড ভেরিয়েন্সটি এসআরএসের পক্ষে পক্ষপাতহীন, যদি জনসংখ্যার গড়টি ডিনোমিনেটর সাথে ব্যবহার করা হয় বা নমুনা গড়টি ডিনোমিনেটর ব্যবহার করা হয় ।
এখানে আর ব্যবহার করে একটি সাধারণ উদাহরণ দেওয়া হল, আমরা গড় থেকে 0 এবং স্ট্যান্ডার্ড বিচ্যুতি 1 দিয়ে একটি সাধারণ থেকে একগুচ্ছ নমুনা উত্পন্ন করি, তারপরে নমুনাগুলির থেকে গড় গড়, বিবর্তন এবং মানক বিচ্যুতি গণনা করি। লক্ষ্য করুন যে গড় এবং ভেরিয়েন্সের গড়গুলি প্রকৃত মানগুলির সাথে কতটা কাছাকাছি রয়েছে (নমুনা ত্রুটির অর্থ তারা সঠিক হবে না), এখন গড় এসডি তুলনা করুন, এটি একটি পক্ষপাতদুষ্ট অনুমানকারী (যদিও বিশাল পক্ষপাতদুষ্ট নয়)।
> tmp.data <- matrix( rnorm(10*1000000), ncol=10 )
> mean( apply(tmp.data, 1, mean) )
[1] 0.0001561002
> mean( apply(tmp.data, 1, var) )
[1] 1.000109
> mean( apply(tmp.data, 1, sd) )
[1] 0.9727121
রিগ্রেশনে আমরা স্টেপওয়াস রিগ্রেশন করে byালুগুলির পক্ষপাতদুষ্ট অনুমানকারী পেতে পারি। একটি পরিবর্তনশীলকে ধাপে ধাপে রিগ্রেশনে রাখার সম্ভাবনা বেশি থাকে যদি আনুমানিক slালটি 0 থেকে আরও বেশি হয় এবং 0 এর কাছাকাছি থাকলে বাদ পড়ার সম্ভাবনা বেশি থাকে, সুতরাং এটি পক্ষপাতমূলক নমুনা এবং চূড়ান্ত মডেলটির slালু আরও ঝোঁক থাকবে সত্য opeালের চেয়ে 0 থেকে 0 থেকে দূরে নির্বাচন পক্ষপাত প্রতিরোধ করার জন্য লাসো এবং রিজ রিগ্রেশন পক্ষপাতের মতো কৌশল 0 এর দিকে opালু।
বায়াস মানে হল যে অনুমানের প্রত্যাশিত মান জনসংখ্যার প্যারামিটারের সমান নয়।
স্বচ্ছলভাবে একটি রিগ্রেশন বিশ্লেষণে, এর অর্থ হ'ল প্যারামিটারগুলির একটির অনুমান খুব বেশি বা খুব কম। যাইহোক, সাধারণ সর্বনিম্ন স্কোয়ারের রিগ্রেশন অনুমানগুলি হ'ল ব্লু, যা সর্বোত্তম রৈখিক নিরপেক্ষ अनुमानক হিসাবে দাঁড়িয়েছে। অন্যান্য ধরনের পেনশনগুলিতে, প্যারামিটারের অনুমানগুলি পক্ষপাতদুষ্ট থাকতে পারে। এটি একটি ভাল ধারণা হতে পারে, কারণ প্রায়শই পক্ষপাত এবং বৈসাদৃশ্যগুলির মধ্যে একটি বাণিজ্য থাকে। উদাহরণস্বরূপ, কোলাইনারিটি থাকা অবস্থায় কখনও কখনও রিজ রিগ্রেশন অনুমানের বৈচিত্র্য হ্রাস করতে ব্যবহৃত হয়।
একটি সাধারণ উদাহরণ এটি আরও ভাল চিত্রিত করতে পারে, যদিও রিগ্রেশন প্রসঙ্গে নয়। ধরুন আপনার ওজন 150 পাউন্ড (ভারসাম্য স্কেল যাচাই করে যা আপনাকে একটি ঝুড়িতে এবং অন্য ঝুড়িতে ওজনের একটি গাদা)। এখন, আপনার কাছে দুটি বাথরুম স্কেল রয়েছে। আপনি প্রতিটি নিজের উপর 5 বার ওজন।
স্কেল 1 152, 151, 151.5, 150.5 এবং 152 এর ওজন দেয়।
স্কেল 2 145, 155, 154, 146 এবং 150 এর ওজন দেয়।
স্কেল 1 পক্ষপাতদুষ্ট, তবে তারতম্য কম; ওজনের গড়পড়তা আপনার আসল ওজন নয়। স্কেল 2 নিরপেক্ষ (औसतটি 150), তবে এর চেয়ে অনেক বেশি বৈকল্পিক রয়েছে।
কোন স্কেল "ভাল"? এটি স্কেলটি আপনি কী করতে চান তার উপর নির্ভর করে।
লিনিয়ার রিগ্রেশন বিশ্লেষণে, পক্ষপাতটি সেই ত্রুটিটিকে বোঝায় যা বাস্তব জীবনের সমস্যাটি প্রায় সহজ মডেল দ্বারা জটিল হতে পারে, যা জটিল হতে পারে by সাধারণ ভাষায়, আপনি একটি সাধারণ রৈখিক মডেল ধরেছেন যেমন y * = (a *) x + b * যেখানে বাস্তব জীবনের মতো ব্যবসায়ের সমস্যা y = ax ^ 3 + bx ^ 2 + c হতে পারে।
এটি বলা যেতে পারে যে কোনও রিগ্রেশন সমস্যা থেকে প্রত্যাশিত পরীক্ষা এমএসই (মানে স্কোয়ারড ত্রুটি) নীচে হিসাবে পচে যেতে পারে। E (y0 - f * (x0)) ^ 2 = ভার (চ * (x0)) + [বায়াস (চ * (x0))] ^ 2 + ভার (ই)
f * -> লিনিয়ার রিগ্রেশন মডেল y0 -> পরীক্ষার তথ্য x0- এ রেকর্ড করা আসল প্রতিক্রিয়া মান -> পরীক্ষার ডেটাতে রেকর্ড করা মূল প্রতিক্রিয়ার মান ই -> অপরিবর্তনীয় ত্রুটি সুতরাং, লক্ষ্যটি একটি মডেল পৌঁছানোর জন্য একটি সেরা পদ্ধতি নির্বাচন করছে যা কম বৈকল্পিকতা এবং কম পক্ষপাত অর্জন করে।
দ্রষ্টব্য: ট্র্যাভার হাস্টি এবং রবার্ট তিবশিরানি দ্বারা স্ট্যাটাসটিকাল লার্নিংয়ের একটি ভূমিকা এই বিষয়ে একটি ভাল অন্তর্দৃষ্টি রয়েছে