আমার 1000 টি ধনাত্মক সহ 100,000 পর্যবেক্ষণ (9 ডামি সূচক ভেরিয়েবল) রয়েছে। লজিস্টিক রিগ্রেশন এই ক্ষেত্রে ভাল কাজ করা উচিত তবে কাটফফ সম্ভাব্যতা আমার ধাঁধা দেয়।
সাধারণ সাহিত্যে, আমরা 1s এবং 0 এর পূর্বাভাস দেওয়ার জন্য 50% কাটঅফ বেছে নিই। আমার মডেল ~ 1% এর সর্বোচ্চ মূল্য দেয় বলে আমি এটি করতে পারি না। সুতরাং একটি প্রান্তিক স্থান 0.007 বা এর আশেপাশে কোথাও হতে পারে।
আমি ROC
বক্ররেখা এবং বক্ররেখার ক্ষেত্রফল কীভাবে একই ডেটাসেটের জন্য দুটি এলআর মডেলের মধ্যে নির্বাচন করতে সহায়তা করতে পারি তা বুঝতে পারি । তবে, আরওসি আমাকে সর্বোত্তম কাট অফ সম্ভাবনা চয়ন করতে সহায়তা করে না যা নমুনা ছাড়াই ডেটাতে মডেলটি পরীক্ষা করতে ব্যবহার করা যেতে পারে।
আমি কি কেবল একটি কাটঅফ মানটি ব্যবহার করতে পারি যা হ্রাস করে misclassification rate
? ( http://www2.sas.com/proceedings/sugi31/210-31.pdf )
যোগ করা হয়েছে -> এত কম ইভেন্টের হারের জন্য, আমার ভুল সংখ্যার হারগুলি বিপুল সংখ্যক মিথ্যা ধনাত্মক দ্বারা প্রভাবিত হয়। সর্বমোট হারটি মোটামুটি দুর্দান্ত হিসাবে দেখা যায় কারণ মোট মহাবিশ্বের আকারটিও বড়, তবে আমার মডেলটির এতগুলি মিথ্যা ধনাত্মক হওয়া উচিত নয় (কারণ এটি একটি বিনিয়োগের রিটার্ন মডেল)। 5/10 কোফ উল্লেখযোগ্য।