একটি বিরল ইভেন্ট লজিস্টিক রিগ্রেশন জন্য কীভাবে কাটফফ সম্ভাবনা চয়ন করবেন


11

আমার 1000 টি ধনাত্মক সহ 100,000 পর্যবেক্ষণ (9 ডামি সূচক ভেরিয়েবল) রয়েছে। লজিস্টিক রিগ্রেশন এই ক্ষেত্রে ভাল কাজ করা উচিত তবে কাটফফ সম্ভাব্যতা আমার ধাঁধা দেয়।

সাধারণ সাহিত্যে, আমরা 1s এবং 0 এর পূর্বাভাস দেওয়ার জন্য 50% কাটঅফ বেছে নিই। আমার মডেল ~ 1% এর সর্বোচ্চ মূল্য দেয় বলে আমি এটি করতে পারি না। সুতরাং একটি প্রান্তিক স্থান 0.007 বা এর আশেপাশে কোথাও হতে পারে।

আমি ROCবক্ররেখা এবং বক্ররেখার ক্ষেত্রফল কীভাবে একই ডেটাসেটের জন্য দুটি এলআর মডেলের মধ্যে নির্বাচন করতে সহায়তা করতে পারি তা বুঝতে পারি । তবে, আরওসি আমাকে সর্বোত্তম কাট অফ সম্ভাবনা চয়ন করতে সহায়তা করে না যা নমুনা ছাড়াই ডেটাতে মডেলটি পরীক্ষা করতে ব্যবহার করা যেতে পারে।

আমি কি কেবল একটি কাটঅফ মানটি ব্যবহার করতে পারি যা হ্রাস করে misclassification rate? ( http://www2.sas.com/proceedings/sugi31/210-31.pdf )

যোগ করা হয়েছে -> এত কম ইভেন্টের হারের জন্য, আমার ভুল সংখ্যার হারগুলি বিপুল সংখ্যক মিথ্যা ধনাত্মক দ্বারা প্রভাবিত হয়। সর্বমোট হারটি মোটামুটি দুর্দান্ত হিসাবে দেখা যায় কারণ মোট মহাবিশ্বের আকারটিও বড়, তবে আমার মডেলটির এতগুলি মিথ্যা ধনাত্মক হওয়া উচিত নয় (কারণ এটি একটি বিনিয়োগের রিটার্ন মডেল)। 5/10 কোফ উল্লেখযোগ্য।


3
এটি তাদের সম্ভাব্যতার সাথে একত্রে দু'বার ভুল সংশ্লেষের আপেক্ষিক ব্যয় যা কাটা বন্ধটি নির্ধারণ করা উচিত। আপনি যদি কেবল সম্ভাব্যতা মডেলটি বৈধতা দিতে চান তবে পরীক্ষার সেটটিতে প্রয়োগ করার সময় এর এটিসি বা বেরিয়ার স্কোর গণনা করুন।
স্কর্চচি - মনিকা পুনরায় ইনস্টল করুন

এটি একটি ভাল উত্তর হতে পারে: stats.stackexchange.com/a/25398/5597
টা-সুং শিন

এছাড়াও এখানে এবং এখানে প্রাসঙ্গিক উত্তর ।
Scortchi - পুনর্বহাল মনিকা

@ তায়ে-সংহীন এই লিঙ্কটির জন্য ধন্যবাদ। এটি উপকারী. আমার অনুমান আমার প্রশ্নাবলীর একটি নির্দিষ্ট উত্তর নেই। আমার মডেল উচ্চ সংখ্যক ভুয়া ধনাত্মক সমস্যায় ভুগছে।
ম্যাডি 26'14

ধন্যবাদ আমি যদি 2 টি ভিন্ন লজিস্টিক রিগ্রেশন মডেল (অতিরিক্ত প্রেডিক্টর সহ) তুলনা করতাম তবে AUC ব্যবহার করা কার্যকর হতে পারে তবে আমি নিশ্চিত না যে এটি আমার ক্ষেত্রে কীভাবে আমাকে সহায়তা করে। এটি আমার মডেলটির মোট সাফল্যের সম্ভাবনা দেয় তবে এটি আমাকে কাটফ অফ সম্ভাবনা বেছে নিতে সহায়তা করে না।
ম্যাডি 26'14

উত্তর:


5

আমি একমত নই যে একটি 50% কাটঅফ সহজাতভাবে বৈধ বা সাহিত্যের দ্বারা সমর্থিত। এই ধরনের কাটা বন্ধকে ন্যায়সঙ্গত প্রমাণ করা যেতে পারে কেবল এমন কেস-নিয়ন্ত্রণ ডিজাইনে যেখানে ফলাফলের প্রসারটি হ'ল 50%, তবে তারপরেও পছন্দটি কয়েকটি শর্ত সাপেক্ষে হতে পারে। আমি মনে করি কাটা কাটা নির্বাচনের মূল যুক্তিটি ডায়াগনস্টিক পরীক্ষার পছন্দসই অপারেটিং বৈশিষ্ট্য।

কাটা কাটা পছন্দসই সংবেদনশীলতা বা নির্দিষ্টতা অর্জন করতে বেছে নেওয়া যেতে পারে। এর উদাহরণের জন্য, মেডিকেল ডিভাইসগুলির সাহিত্যের সাথে পরামর্শ করুন। সংবেদনশীলতা প্রায়শই একটি নির্দিষ্ট পরিমাণে সেট করা থাকে: উদাহরণগুলির মধ্যে 80%, 90%, 95%, 99%, 99.9%, বা 99.99% অন্তর্ভুক্ত। সংবেদনশীলতা / স্পষ্টতা ট্রেড অফকে টাইপ 1 এবং টাইপ II ত্রুটির ক্ষতির সাথে তুলনা করা উচিত। প্রায়শই স্ট্যাটিস্টিকাল টেস্টিংয়ের মতো, টাইপ আই ত্রুটির ক্ষতি আরও বেশি হয় এবং তাই আমরা সেই ঝুঁকিটি নিয়ন্ত্রণ করি control তবুও, এই ক্ষতগুলি খুব কমই পরিমানযোগ্য। সেই কারণে, কাট-অফ নির্বাচন পদ্ধতিতে আমার বড় আপত্তি রয়েছে যা একক পরিমান পূর্বাভাসের যথাযথতার উপর নির্ভর করে: তারা বোঝায়, ভুলভাবে, যে ক্ষতিকারক ক্ষতি করতে পারে এবং তা পরিমিত করা যেতে পারে।

আপনার অনেক বেশি মিথ্যা ধনাত্মক ইস্যু বিপরীতে এর উদাহরণ: দ্বিতীয় ধরণের ত্রুটি আরও ক্ষতিকারক হতে পারে। তারপরে আপনি পছন্দসই সুনির্দিষ্টতা অর্জনের জন্য প্রান্তিক সেটটি স্থাপন করতে পারেন এবং সেই প্রান্তিক স্থানে অর্জিত সংবেদনশীলতার প্রতিবেদন করতে পারেন।

যদি আপনি উভয়টি অনুশীলনের জন্য গ্রহণযোগ্য হতে খুব কম দেখেন তবে আপনার ঝুঁকিপূর্ণ মডেলটি কাজ করে না এবং এটি প্রত্যাখ্যান করা উচিত।

সংবেদনশীলতা এবং সুনির্দিষ্টতা সহজেই গণনা করা বা সম্ভাব্য কাট-অফ মানগুলির পুরো পরিসীমা জুড়ে একটি টেবিল থেকে সন্ধান করা হয়। আরওসি-র সমস্যাটি হ'ল এটি গ্রাফিক থেকে নির্দিষ্ট কাট-অফ তথ্য বাদ দেয়। আরওসি তাই একটি কাট অফ মান চয়ন করার জন্য অপ্রাসঙ্গিক।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.