লজিস্টিক রিগ্রেশনে অতিমাত্রায় বিভ্রান্তি


14

আমি লজিস্টিক রিগ্রেশন-এ ওভারডিস্পেরেশন ধারণার উপর একটি হ্যান্ডেল পাওয়ার চেষ্টা করছি। আমি পড়েছি যে যখন কোনও প্রতিক্রিয়ার পরিবর্তনশীলটির দ্বিপদী বিতরণ থেকে প্রত্যাশার চেয়ে বেশি হয় তখন পর্যবেক্ষণের পরিমাণটি বেশি হয়।

তবে দ্বিপদী ভেরিয়েবলের কেবল দুটি মান থাকতে পারে (1/0), কীভাবে এর অর্থ ও বৈকল্পিকতা থাকতে পারে?

বার্নোল্লি ট্রায়ালগুলির x সংখ্যা থেকে সাফল্যের গড় এবং তারতম্য গণনা করে আমি ঠিক আছি। তবে আমি একটি ভেরিয়েবলের গড় এবং তারতম্যের ধারণার চারপাশে আমার মাথাটি গুটিয়ে রাখতে পারি না যার কেবল দুটি মান থাকতে পারে।

যে কেউ এর একটি স্বজ্ঞাত ওভারভিউ প্রদান করতে পারে:

  1. একটি ভেরিয়েবলের মধ্যে গড় এবং বৈচিত্রের ধারণা যা কেবলমাত্র দুটি মান থাকতে পারে
  2. একটি ভেরিয়েবলের ওভারডিস্পিয়ারিয়ান ধারণাটি কেবল দুটি মান থাকতে পারে

1
20 টি মান যুক্ত করুন , যেখানে 10 এবং 10 হ'ল । আপনি এই 20 দ্বারা বিভক্ত করতে পারেন? আপনি এসডি গণনা করতে পারেন ? 0 1 yy01y
সাইকোরাক্স মনিকাকে

সুন্দরভাবে লিখুন সুতরাং আমি বিশ্বাস করি যে এর অর্থ = 0.5, স্ট্যান্ডার্ড বিচ্যুতি = 0.11।
লুসিওানো

বলুন আমার প্রতিক্রিয়া ভেরিয়েবলের 100 টি সাফল্য ছিল এবং 5 টি ব্যর্থ হয়েছিল। এটি কি অত্যধিক সংবেদনশীল হতে পারে?
লুসিওানো

লুসিয়ানো, অতিরিক্ত পরীক্ষা করা হচ্ছে কিনা তা নির্ধারণ করতে আপনার একাধিক উপলব্ধির প্রয়োজন need
আন্ডারমিনার

উত্তর:


10

ট্রায়াল এবং সাফল্যের সম্ভাব্যতার সাথে একটি দ্বিপদী র্যান্ডম ভেরিয়েবল দুটি মানের বেশি নিতে পারে। দ্বিপদী র‌্যান্ডম ভেরিয়েবল সেই ট্রায়ালগুলিতে সাফল্যের সংখ্যা উপস্থাপন করে এবং বাস্তবে বিভিন্ন মান ( ) নিতে পারে। সুতরাং দ্বিপাক্ষিক অনুমানের অধীনে যদি বিতরণটির বৈকল্পিকতা প্রত্যাশার চেয়েও বেশি হয় (সম্ভবত উদাহরণস্বরূপ অতিরিক্ত শূন্য রয়েছে), এটি অতিমাত্রায় বিভ্রান্তির ক্ষেত্রে। পি এন এন + + 1 0 , 1 , 2 , 3 , , এনNpNN+10,1,2,3,...,N

অত্যধিক বিভাজন কোনও বার্নৌলির এলোমেলো পরিবর্তনশীল ( ) এর অর্থ দেয় নাN=1

একটি লজিস্টিক রিগ্রেশন বক্ররেখার প্রসঙ্গে আপনি একটি "ছোট টুকরা" বা গোষ্ঠীভঙ্গিকে ভবিষ্যদ্বাণীমূলক মানের একটি সংক্ষিপ্ত পরিসরের মাধ্যমে দ্বিপদী পরীক্ষার উপলব্ধি হিসাবে বিবেচনা করতে পারেন (সম্ভবত আমাদের নির্দিষ্ট সংখ্যার সাথে স্লাইসে 10 পয়েন্ট রয়েছে) সাফল্য এবং ব্যর্থতা)। যদিও প্রতিটি ভবিষ্যদ্বাণীকের মানটিতে সত্যিকার অর্থে আমাদের একাধিক বিচার না হয় এবং আমরা কাঁচা গণনার পরিবর্তে অনুপাতের দিকে তাকাচ্ছি, তবুও আমরা আশা করব যে এই "টুকরা "গুলির প্রতিটি অনুপাতটি বক্ররেখার কাছাকাছি থাকবে। এই "স্লাইস" এর বক্ররেখা থেকে দূরে থাকার প্রবণতা থাকলে, বিতরণে খুব বেশি পরিবর্তনশীলতা রয়েছে। সুতরাং পর্যবেক্ষণগুলি দলবদ্ধ করে, আপনি স্বতন্ত্রভাবে 0/1 ডেটা দেখার চেয়ে দ্বিপদী র্যান্ডম ভেরিয়েবলের উপলব্ধি তৈরি করেন।

নীচের উদাহরণটি এই সাইটের অন্য প্রশ্ন থেকে। আসুন বলুন নীল রেখাগুলি পূর্বাভাসীর ভেরিয়েবলের পরিসীমাটির তুলনায় প্রত্যাশিত অনুপাতকে উপস্থাপন করে। নীল কোষগুলি পর্যবেক্ষণকৃত দৃষ্টান্তগুলি নির্দেশ করে (এই ক্ষেত্রে স্কুলগুলি)। এটি কীভাবে ওভারডেস্পারেশন দেখতে পারে তার একটি গ্রাফিকাল উপস্থাপনা সরবরাহ করে । নোট করুন যে নীচের গ্রাফের কোষগুলি ব্যাখ্যা করার সাথে কিছু ত্রুটি রয়েছে তবে এটি কীভাবে ওভারডিস্পারেশনটি নিজেকে প্রকাশ করতে পারে তার একটি ধারণা সরবরাহ করে।

ওভার ছত্রাকের উদাহরণ


1
তবে আমি লজিস্টিক রিগ্রেশন প্রসঙ্গে অতি মাত্রায় আগ্রহী। লজিস্টিক রিগ্রেশনে প্রেডিক্টর ভেরিয়েবলের প্রতিটি মানের জন্য এন ট্রায়াল হয় না, কেবলমাত্র একটি পরীক্ষা হয়। এবং সেই এক পরীক্ষার ফলাফল হয় সাফল্য বা ব্যর্থ
লুসিওানো

আমি লিনিয়ার রিগ্রেশন প্রসঙ্গে অতি মাত্রায় আড়াল করার অন্তর্নিহিতের সমাধান করার জন্য একটি অনুচ্ছেদ যুক্ত করেছি।
আন্ডারমিনার

1
আন্ডারনাইনার, আমি এই বাক্যটির দ্বারা আপনি কী বোঝাতে চেয়েছেন তা অনুধাবন করার চেষ্টা করছি: "যদি এই" স্লাইসগুলির "বক্ররেখা থেকে খুব দূরে থাকার প্রবণতা থাকে তবে বিতরণে খুব বেশি পরিবর্তনশীলতা থাকে"। আপনার অর্থটি আমি যা বোঝাতে চাইছি তা এখানে: কার্ভের স্লাইসে যেখানে একটি 0.1-0.3 সাফল্যের সম্ভাবনা রয়েছে সেখানে প্রচুর সাফল্য রয়েছে এবং সেখানে বক্ররেখার স্লাইসে যেখানে সাফল্যের সম্ভাবনা 0.7-0.9 রয়েছে সেখানে প্রচুর পরিমাণ রয়েছে ব্যর্থ। এটিই কি আপনার অর্থ এবং এটি কি অতিরিক্ত পরিমাণে প্রতিনিধিত্ব করবে?
লুসিওানো

1
@ লুসিয়ানো এটি সঠিক ধারণা। তবে মনে রাখবেন যে "স্লাইস "গুলির একটি ভারসাম্য থাকতে হবে যা প্রথম স্থানটিতে ফিট হওয়ার জন্য বক্ররেখার অনেক উপরে এবং বক্ররেখার নিচে। সুতরাং এটি বলা আরও বাস্তববাদী হতে পারে যে 0.7 এর কাছাকাছি একটি ফালিটিতে অনেকগুলি সাফল্য রয়েছে (হতে পারে 100%) এবং পরের টুকরোটি 0.75 এর কাছাকাছি খুব কম (50%) থাকে তবে 0.80 এর অনেক বেশি (100%) ইত্যাদি রয়েছে তাই তাই রয়েছে is প্রত্যাশার চেয়ে বেশি ভিন্নতা লক্ষ্য করা যায়।
আন্ডারমিনার

আমি হ্যাঁ, ভালভাবে বুঝিয়েছি
লুচিয়ানো

7

যেমন ইতিমধ্যে অন্যদের দ্বারা উল্লিখিত হয়েছে, বার্নোল্লি (0/1) ভেরিয়েবলের ক্ষেত্রে অতিরিক্ত পরিমাণ প্রয়োগ করা হয় না, যেহেতু সেই ক্ষেত্রে, গড়টি প্রয়োজনীয়তাটি বৈকল্পিকটি নির্ধারণ করে। লজিস্টিক রিগ্রেশন প্রসঙ্গে, এর অর্থ হ'ল যদি আপনার ফলাফলটি বাইনারি হয় তবে আপনি কোনও ছড়িয়ে পড়া প্যারামিটার অনুমান করতে পারবেন না। (এনবি এর অর্থ এই নয় যে আপনি পর্যবেক্ষণের মধ্যে সম্ভাব্য পারস্পরিক সম্পর্কটিকে কেবল এড়িয়ে যাবেন কারণ আপনার ফলাফলটি বাইনারি!)

অন্যদিকে, যদি আপনার ফলাফলটি অনুপাতের সেট হয় তবে আপনি পিয়ারসন চি-স্কোয়্যার স্ট্যাটিস্টিক (বা বিচ্যুতিটি বিভাজন করে) একটি বিচ্ছুরণ পরামিতি (যা প্রায়শই একের বেশি হলেও একের চেয়ে কমও হতে পারে) অনুমান করতে পারেন or ) স্বাধীনতার অবশিষ্টাংশ দ্বারা।

মনে রাখবেন, খাঁটিভাবে বাইনারি ফলাফলের সাথে লজিস্টিক রিগ্রেশন আরও সাধারণ লজিস্টিক রিগ্রেশন মডেলের একটি বিশেষ ঘটনা যেখানে দ্বিপদী সূচকটি একের বেশি হতে পারে (এবং পর্যবেক্ষণে পৃথক হতে পারে)। সুতরাং, আপনি কোনও লজিস্টিক রিগ্রেশন মডেল ফিট করছেন কিনা তা আপনার ডেটা অতিরিক্ত পরিমাণে ছড়িয়ে দেওয়া কিনা এই প্রশ্নের সাথে সম্পর্কিত নয়।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.