পি> 0.5 কটঅফ লজিস্টিক রিগ্রেশনটির জন্য "অনুকূল" নয় কেন?


13

পূর্বনির্ধারণ: আমি একটি কাটঅফ ব্যবহার করার যোগ্যতা বা না, বা কীভাবে একজনকে কাট অফ বেছে নিতে হবে সে সম্পর্কে আমি পাত্তা দিই না। আমার প্রশ্নটি খাঁটি গাণিতিক এবং কৌতূহলের কারণে।

লজিস্টিক রিগ্রেশন মডেলগুলি ক্লাস বি বনাম ক্লাসের পূর্ববর্তী শর্তসাপেক্ষ সম্ভাবনা এবং এটি একটি হাইপারপ্লেনের সাথে ফিট করে যেখানে উত্তরোত্তর শর্তসাপেক্ষ সম্ভাবনা সমান। সুতরাং তত্ত্বে, আমি বুঝতে পেরেছি যে একটি 0.5 শ্রেণিবদ্ধকরণ বিন্দু নির্ধারিত ভারসাম্য নির্বিশেষে মোট ত্রুটিগুলি হ্রাস করবে, যেহেতু এটি উত্তরোত্তর সম্ভাবনা মডেল করে (ধরে নিচ্ছে যে আপনি ধারাবাহিকভাবে একই শ্রেণীর অনুপাতের সম্মুখীন হন)।

আমার বাস্তব জীবনের উদাহরণে, আমি আমার শ্রেণিবদ্ধ কাটঅফ (প্রায় 51% নির্ভুলতা) হিসাবে পি> 0.5 ব্যবহার করে খুব খারাপ নির্ভুলতা পেয়েছি। তবে আমি যখন এউসির দিকে তাকালাম এটি 0.99 এর উপরে। তাই আমি কিছু আলাদা কাট অফের মান দেখেছি এবং জানতে পেরেছি যে পি> 0.6 আমাকে 98% নির্ভুলতা দিয়েছে (ছোট শ্রেণির জন্য 90% এবং বড় শ্রেণির জন্য 99%) - কেবলমাত্র 2% ক্ষেত্রে বিযুক্ত করা হয়েছে।

ক্লাসগুলি ভারী ভারসাম্যহীন (1: 9) এবং এটি একটি উচ্চ-মাত্রিক সমস্যা। যাইহোক, আমি প্রতিটি ক্রস-বৈধতা সেটগুলিতে সমানভাবে ক্লাসগুলি বরাদ্দ করি যাতে মডেল ফিট এবং তারপরে পূর্বাভাসের মধ্যে ক্লাসের ভারসাম্যের মধ্যে কোনও পার্থক্য না ঘটে। আমি মডেল ফিট এবং পূর্বাভাসে একই ডেটা ব্যবহার করার চেষ্টা করেছি এবং একই সমস্যা দেখা দিয়েছে।

আমি যে কারণে 0.5 টি ত্রুটিগুলি হ্রাস করবে না সে সম্পর্কে আগ্রহী, আমি ভেবেছিলাম ক্রস-এনট্রপি ক্ষতি হ্রাস করে মডেলটি ফিট করা গেলে এটি ডিজাইনের মাধ্যমে হবে।

কেন এমনটি হয় সে সম্পর্কে কারও কোনও প্রতিক্রিয়া আছে? এটি কি শাস্তি যোগ করার কারণে, কেউ যদি এমনটি ঘটতে পারে তবে কী তা ব্যাখ্যা করতে পারে?



স্কোর্টচি, আপনি সম্ভবত কাট অফস সম্পর্কে কোন প্রশ্নটি প্রাসঙ্গিক বলে কিছুটা সুনির্দিষ্ট করে বলতে পারেন? আমি পোস্ট করার আগে প্রাসঙ্গিক প্রশ্ন বা উত্তর দেখিনি, না এখনই।
felix000

দুঃখিত, আমার অর্থ এই নয় যে তারা সকলেই আপনার প্রশ্নের উত্তর দিয়েছে, তবে আমি ভেবেছিলাম তারা পারফরম্যান্স মেট্রিক হিসাবে কোনও কাট-অফে নির্ভুলতা না ব্যবহার করার পরামর্শ দেওয়ার ক্ষেত্রে প্রাসঙ্গিক, বা কমপক্ষে কোনও ইউটিলিটি থেকে নির্বিচারে কাট-অফকে গণনা করা হয়নি I ফাংশন।
স্কর্চচি - মনিকা পুনরায় ইনস্টল করুন

উত্তর:


16

একটি লজিস্টিক রিগ্রেশন মডেল থেকে আপনার পূর্বাভাস বিভাগগুলি পেতে হবে না। এটি পূর্বাভাসযুক্ত সম্ভাবনার সাথে ভাল থাকার থাকতে পারে। আপনি যদি পূর্বাভাসযুক্ত বিভাগগুলি পান তবে আপনার এই তথ্যটি 'এই পর্যবেক্ষণটি এই বিভাগে সেরা শ্রেণিবদ্ধ করা হয়েছে' বলার অপেক্ষা রাখে না এমন কিছু করা উচিত নয় । উদাহরণস্বরূপ, কোনও মডেল নির্বাচন করতে আপনার 'নির্ভুলতা' / শতাংশ সঠিক ব্যবহার করা উচিত নয়।

এই জিনিসগুলি বলার পরে কম শ্রেণীর পর্যবেক্ষণের শ্রেণিবিন্যাসের জন্য অনুকূল কাট অফ হতে পারে। এটি কীভাবে ঘটতে পারে তার একটি স্বজ্ঞাত ধারণা পেতে, কল্পনা করুন যে ইতিবাচক বিভাগে পর্যবেক্ষণ সহ আপনার রয়েছে । আপনি যখন আপনার হিসাবে ব্যবহার করেন তখন একটি সাধারণ, ইন্টারসেপ্ট-কেবলমাত্র মডেলের সহজেই মিথ্যা নেতিবাচক থাকতে পারে । অন্যদিকে, আপনি যদি কেবলমাত্র সবকিছুকে ইতিবাচক বলেছেন, আপনার কাছে মিথ্যা পজিটিভ, তবে সঠিক। .50N=1009949.50199%

আরও সাধারণভাবে, লজিস্টিক রিগ্রেশন ব্যাখ্যামূলক ভেরিয়েবলের একটি ফাংশন হিসাবে পর্যবেক্ষণের জন্য সত্য সম্ভাবনাটি ইতিবাচক ফিট করার চেষ্টা করছে। কাটাওফের আশেপাশে পূর্বাভাসপ্রাপ্ত সম্ভাবনাগুলি কেন্দ্র করে নির্ভুলতা সর্বাধিক করার চেষ্টা করছে না । যদি আপনার নমুনা ইতিবাচক না হয়, কেবল কোনও কারণ নেই শতাংশ সঠিকভাবে সর্বাধিকীকরণ করবে।.5050%.50


হাই, আপনার ব্যাখ্যার জন্য আপনাকে ধন্যবাদ, তবে আমি কেবলমাত্র বিরতি-কেবল মডেলটির সাথে উদাহরণটি পাই না। কেবলমাত্র বিরতিযুক্ত মডেলটির সাথে আপনার কোনও উদাহরণের জন্য 0.99 থাকবে এবং সুতরাং আপনার কোনও প্রান্তিক মান নিয়ে 99% যথার্থতা পাবেন।
abcdaire

0

আমি মনে করি, এটি একাধিক কারণে হতে পারে:

  1. আপনার ডেটাতে অ-রৈখিকতা থাকতে পারে, সুতরাং ভারসাম্য রৈখিকভাবে যুক্ত করা, সর্বদা সঠিক সম্ভাবনার ফলস্বরূপ নাও হতে পারে
  2. চলকগুলি হ'ল ভাল ভবিষ্যদ্বাণীকারী এবং দুর্বল ভবিষ্যদ্বাণীকের মিশ্রণ, সুতরাং প্রায় স্কোর জনসংখ্যা।। এর কাছাকাছি হ'ল দুর্বল ভবিষ্যদ্বাণীকারী বা শক্তিশালী ভবিষ্যদ্বাণীগুলির কম প্রভাবের কারণে। আপনি উপরের দিকে যেতে, আপনি এমন লোক পাবেন, যার জন্য ভবিষ্যদ্বাণীকারীদের প্রভাব প্রবল

সুতরাং, আপনার কাঙ্ক্ষিত আউটপুট যেমন যথার্থতা, নির্ভুলতা ইত্যাদিকে সর্বাধিকীকরণ করতে আপনার কাট-অফ মান দিয়ে ঘুরে বেড়াতে হতে পারে কারণ বেশিরভাগ সময় জনসংখ্যা খুব একজাতীয় নয়।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.