লজিস্টিক রিগ্রেশন করার সময় কি ভারসাম্যহীন নমুনার বিষয়টি বিবেচনা করে?


81

ঠিক আছে, সুতরাং আমি মনে করি আমার হাতে যথেষ্ট পরিমাণে নমুনা রয়েছে: 20: 1 টি নিয়মের আমলে নেওয়া: মোট 7 প্রার্থীর ভবিষ্যদ্বাণী ভেরিয়েবলের জন্য মোটামুটি বড় নমুনা (এন = 374)।

আমার সমস্যাটি হ'ল: প্রডাক্টর ভেরিয়েবলগুলির যে কোনও সেটই আমি ব্যবহার করি না, শ্রেণিবদ্ধিগুলি 100% এর স্পষ্টতা এবং 0% এর সংবেদনশীলতার চেয়ে ভাল আর পায় না। তবে অসন্তুষ্টিহীন, প্রার্থী ভবিষ্যদ্বাণী ভেরিয়েবলগুলির সেট (যা থেকে আমি বিচ্যুত করতে পারি না) দেওয়া সত্ত্বেও এটি সর্বোত্তম সম্ভাব্য ফলাফল হতে পারে।

তবে, আমি সাহায্য করতে পারিনি তবে ভাবছিলাম যে আমি আরও ভাল করতে পারি, সুতরাং আমি লক্ষ্য করেছি যে নির্ভরশীল ভেরিয়েবলের বিভাগগুলি প্রায় অসমভাবে ভারসাম্যপূর্ণ ছিল, প্রায় 4: 1। আরও সুষম সাবমেল কি শ্রেণিবিন্যাসকে উন্নত করতে পারে?


5
এটি কীভাবে হতে পারে তা কল্পনা করা শক্ত। সম্ভবত আপনি 0.5% এর পূর্বাভাস সম্ভাবনা কেটে দিচ্ছেন? যদি তা হয় তবে কাটাফটি আলাদা করার চেষ্টা করুন।
অনিকো

4
আরওসি-বক্ররেখার আওতাধীন অঞ্চলটি .585, এটির চেয়ে খারাপ ফলাফল। এটি বোঝায় যে সত্যিকার অর্থে কোনও সংশ্লেষ / সংবেদনশীলতা ট্রেড-অফের পক্ষে মূল্য নেই cut কাটঅফের সাথে ফিডিং শ্রেণিবদ্ধের খুব বেশি উন্নতি করতে পারে না, কারণ এটি সংবেদনশীলতা বাড়ানোর সাথে সাথে স্পষ্টতাটিকে প্রায় হ্রাস করবে।
মিচিয়েল

3
0

2
আরও লক্ষ করুন যে ভাল পূর্বাভাস দেওয়ার ক্ষেত্রে আপনার নমুনা আকারটি ভবিষ্যদ্বাণীকারী ভেরিয়েবলের অনন্য নিদর্শনগুলির সংখ্যা এবং নমুনাযুক্ত ব্যক্তির সংখ্যা নয়। উদাহরণস্বরূপ, দুটি স্তরের একক শ্রেণিবদ্ধ প্রেডিক্টর ভেরিয়েবল সহ একটি মডেল কেবলমাত্র দুটি পরামিতি (প্রতিটি বিভাগের জন্য একটি) সহ একটি লজিস্টিক রিগ্রেশন মডেল ফিট করতে পারে, এমনকি নমুনায় লক্ষ লক্ষ লোক থাকলেও।
সম্ভাব্যতাবিহীন

সম্পর্কিত: stats.stackexchange.com
অ্যামিবা

উত্তর:


75

ট্রেনিং সেটে ভারসাম্য রইল

লজিস্টিক রিগ্রেশন মডেলগুলির জন্য ভারসাম্যহীন প্রশিক্ষণের ডেটা কেবলমাত্র মডেল ইন্টারসেপ্টের প্রাক্কলনকে প্রভাবিত করে (যদিও এটি অবশ্যই পূর্বাভাসের সমস্ত সম্ভাবনাগুলিকে ঝাঁকিয়ে দেয় যা ফলস্বরূপ আপনার পূর্বাভাসকে আপস করে)। ভাগ্যক্রমে ইন্টারসেপ্ট সংশোধনটি সোজা: আপনি যদি 0 বা 1 এর সঠিক অনুপাতটি জানেন বা অনুমান করতে পারেন এবং প্রশিক্ষণ সংস্থার অনুপাতগুলি জানেন তবে আপনি বিরতিতে বিরল ইভেন্ট সংশোধন প্রয়োগ করতে পারেন। বিস্তারিত রয়েছে রাজা ও জেং (2001) [ পিডিএফ ]।

এই 'বিরল ইভেন্ট সংশোধন' কেস নিয়ন্ত্রণ গবেষণা ডিজাইনের জন্য ডিজাইন করা হয়েছিল, বেশিরভাগ ক্ষেত্রে এপিডেমিওলজিতে ব্যবহৃত হয়, যা একটি স্থির, সাধারণত ভারসাম্যপূর্ণ 0 টি কেস এবং 1 কেস বেছে নিয়ে কেস নির্বাচন করে এবং তারপরে ফলাফলের নমুনা নির্বাচনের পক্ষপাতিত্বের জন্য সংশোধন করা প্রয়োজন। প্রকৃতপক্ষে, আপনি আপনার শ্রেণিবদ্ধকে একইভাবে প্রশিক্ষণ দিতে পারেন। একটি চমৎকার ভারসাম্যপূর্ণ নমুনা বেছে নিন এবং তারপরে র্যান্ডম নমুনা আপনাকে বলতে সক্ষম হবেন এর চেয়ে বিরল শ্রেণীর বিষয়ে আরও জানতে আপনি নির্ভরশীল ভেরিয়েবলটি নির্বাচন করেছেন তা বিবেচনার জন্য ইন্টারসেপ্টটি সংশোধন করুন।

ভবিষ্যদ্বাণী করা

সম্পর্কিত তবে স্বতন্ত্র বিষয়ে: ভুলে যাবেন না যে ভবিষ্যদ্বাণী করার জন্য আপনার বুদ্ধিমানের দ্বার চাপানো উচিত। মডেলের সম্ভাবনা 0.5 থেকে বেশি হলে 1 টি পূর্বাভাস দেওয়া ভাল নয়। আরেকটি প্রান্তিকর আরও ভাল হতে পারে। এই লক্ষ্যে আপনার শ্রেণিবদ্ধের রিসিভার অপারেটিং চরিত্রগত (আরওসি) বক্ররেখাগুলি অনুসন্ধান করা উচিত, এটি কোনও ডিফল্ট সম্ভাব্যতা থ্রেশহোল্ডের সাথে তার ভবিষ্যদ্বাণীমূলক সাফল্য নয়।


8
আপনি যদি অপারেশনাল ক্লাসের ফ্রিকোয়েন্সিগুলি জানেন না, তবে পরীক্ষার / অপারেশনাল নমুনাগুলির লেবেল না জেনে ইএম দ্বারা সেগুলি অনুমান করা যায়। বিশদটি সেরেনস এট আল-এ রয়েছে। "ক্লাসিফায়ারের আউটপুটগুলি নতুন একটি প্রিওরির সম্ভাবনাগুলিতে সমন্বয় করা: একটি সাধারণ পদ্ধতি", নিউরাল গণনা, খণ্ড। 14, না। 1, পৃষ্ঠা 21-41 , 2002 ( dx.doi.org/10.1162/089976602753284446 )। আমি এটি কয়েকবার ব্যবহার করেছি এবং এটি কতটা ভাল কাজ করেছে তা দেখে মুগ্ধ হয়েছি। তবে নোট করুন যে তাত্ত্বিক সংশোধন সাধারনত সর্বোত্তম নয় এবং উদাহরণস্বরূপ এটি ক্রস-বৈধকরণের মাধ্যমে নির্ধারণ করা আরও ভাল।
ডিকরান মার্শুপিয়াল

হ্যাঁ, আমার উল্লেখ করা উচিত ছিল যে আরওসি-বক্ররেখা থেকে প্রাপ্ত ফলাফলগুলিও বিশ্বাসযোগ্য নয়। এই ক্ষেত্রে আমি মনে করি যে কোনও প্রান্তিকতা নেই যা সন্তোষজনক ফলাফল দেয়।
মিচিয়েল

ভবিষ্যদ্বাণী করা সম্পর্কে: আমি কীভাবে 0 এবং 1 ফলাফলের জন্য আমার প্রশিক্ষণের সেটটির আকার বিবেচনা করতে পারি? আমি প্রকৃতপক্ষে 0.5 এর প্রান্তিকতা ব্যবহার করতে চাই না, তবে আর কীভাবে এটি করতে হবে তা নিশ্চিত নই
পার্ল্নিকা

1
@ পারলনিকা বিবরণগুলি কাগজের লিঙ্কে রয়েছে (সবচেয়ে সহজ ক্ষেত্রে আপনি আনুমানিক ইন্টারসেপ্ট পরিবর্তন করেন)। 0.5 predictনম্বরের নাগালের জন্য , কেবল নতুন প্রান্তিকের চেয়ে বড় কিনা তার জন্য প্রতিটি পূর্বাভাসপ্রাপ্ত সম্ভাব্যতা ব্যবহার এবং গণনা করুন।
কনজুগেটপায়ার

1
@ সাসাএনএফ এটি সত্য যে একটি প্রান্তিক পরিবর্তন দ্বারা একটি ইন্টারসেপ্ট শিফট অফসেট করা যেতে পারে। তবে, এটি আপনার সম্ভাব্যতা অনুমান (অনুমান) কে ত্রুটির তুলনামূলক দামের (ক্ষতি ফাংশন) সাথে তুলনামূলকভাবে যুক্ত করে, অন্যদিকে অ্যাপ্লিকেশনগুলিতে পৃথক হতে পারে। উদাহরণস্বরূপ, যখন 0 এর জন্য 1 টি 1 টি ভুল করার খরচটি 1 1 এর জন্য 0 0 টি ভুল করার ব্যয় হয় তখন আপনি নিজের অনুমানের সম্ভাবনাটি 1 / (1 + C) এর কাছাকাছি রাখতে চান।
conjugateprior

41

সমস্যাটি নয় যে ক্লাসগুলি প্রতি সেবায় ভারসাম্যহীন, এটি হ'ল সংখ্যালঘু শ্রেণীর পর্যাপ্ত নিদর্শনগুলি পর্যাপ্ত পরিমাণে এর বন্টন উপস্থাপন করতে পারে না। এর অর্থ হ'ল লজিস্টিক রিগ্রেশন নয়, কোনও শ্রেণিবদ্ধের জন্যও সমস্যাটি উঠতে পারে (আপনার যদি সিন্থেটিক সমস্যা থাকে এবং আপনি জানেন যে আপনার আসল মডেল রয়েছে)। ভাল কথা হ'ল আরও ডেটা উপলভ্য হওয়ার সাথে সাথে "শ্রেণি ভারসাম্যহীনতা" সমস্যাটি সাধারণত চলে যায়। যা বলেছিলেন, 4: 1 সমস্ত ভারসাম্যহীন নয়।

আপনি যদি ভারসাম্যযুক্ত ডেটাসেট ব্যবহার করেন তবে গুরুত্বপূর্ণ বিষয়টি মনে রাখতে হবে যে ক্লাসগুলি সমানভাবে সাধারণ বলে ধরে নিয়ে মডেলের আউটপুটটি এখন এ-পোস্টেরিয়ের সম্ভাবনার একটি অনুমান, এবং সুতরাং আপনি মডেলটিকে খুব দূরে বাইজিং শেষ করতে পারেন। আমি প্রতিটি শ্রেণীর অন্তর্গত প্যাটার্নগুলিকে আলাদাভাবে ওজন করব এবং সঠিক অপারেশনাল শ্রেণীর ফ্রিকোয়েন্সি সহ পরীক্ষার সেটটিতে ক্রস-এনট্রপি কমিয়ে ওজনগুলি বেছে নেব।


6
+1If you use a balanced dataset, the important thing is to remember that the output of the model is now an estimate of the a-posteriori probability
ঝুবার্ব

2

দুটি নমুনার অন্তর্নিহিত বিতরণ সম্পর্কে চিন্তা করুন। ক্ষুদ্রতর নমুনায় বিশাল পরিমাণ পক্ষপাত ছাড়াই উভয় উপ-জনসংখ্যা পরিমাপ করার জন্য আপনার কি পর্যাপ্ত নমুনা রয়েছে?

একটি দীর্ঘ ব্যাখ্যার জন্য এখানে দেখুন।

https://statisticalhorizons.com/logistic-regression-for-rare-events


5
এটি প্রশ্নের উত্তর বলে মনে হচ্ছে না।
মাইকেল চেরনিক 18

কারণ কোন নির্দিষ্ট উত্তর নেই! আপনি এটি কীভাবে প্রয়োগ করবেন এবং প্রাক্কলন প্রক্রিয়াটিতে যে কোনও পক্ষপাতের পরিমাণ তা অনুমোদন করতে রাজি about
পল তুলোকাচ

1
আমি মনে করি এটি দুর্দান্ত উত্তর। যতদূর আমি বুঝতে পারি ভারসাম্য সংশোধন করার সমস্ত প্রচেষ্টা পরীক্ষায় ধরা পড়ে না এমন কিছু বাহ্যিক জ্ঞানের উপর নির্ভর করে। বিশেষত অন্তর্নিহিত বিতরণ জেনে সংশোধন সাহায্য করবে।
ব্যবহারকারী 1700890
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.