লগলাস বনাম গিনি / আউক


15

আমি দুটি মডেলকে প্রশিক্ষণ দিয়েছি (h2o অটোএমএল ব্যবহার করে বাইনারি শ্রেণিবদ্ধ) এবং আমি ব্যবহার করতে একটি নির্বাচন করতে চাই। আমার নিম্নলিখিত ফলাফল রয়েছে:

 model_id        auc     logloss    logloss_train   logloss_valid   gini_train  gini_valid

DL_grid_1   0.542694    0.287469         0.092717        0.211956     0.872932    0.312975
DL_grid_2   0.543685    0.251431         0.082616        0.186196     0.900955    0.312662

aucএবং loglossকলাম ক্রস বৈধতা মেট্রিক্স হয় (ক্রশ বৈধতা শুধুমাত্র প্রশিক্ষণ ডেটা ব্যবহার করে)। ..._trainএবং ..._validবৈশিষ্ট্যের মান যথাক্রমে মডেল মাধ্যমে প্রশিক্ষণ ও বৈধতা মেট্রিক্স চালিয়ে পাওয়া যায়। আমি সেরা মডেল চয়ন করতে হয় logloss_validবা ব্যবহার করতে চাই gini_valid

মডেল 1 এর আরও ভাল গিনি রয়েছে (অর্থাত্ আরও ভাল এওসি) তবে মডেল দুটিতে আরও ভাল লগলস রয়েছে। আমার প্রশ্নটি কোনটি বেছে নেওয়ার বিষয়ে আমি মনে করি যেটি প্রশ্নটি গ্রহণ করে, সিদ্ধান্তের মেট্রিক হিসাবে গিনি (এউসি) বা লগলসকে ব্যবহার করার সুবিধা / অসুবিধাগুলি কী।


1
আপনি যদি কেবল শ্রেণিবিন্যাসের মধ্যে না থেকেও সম্ভাবনার বিষয়ে আগ্রহী হন তবে লগলসকে কেন পছন্দ করা হয় তার একটি দুর্দান্ত ব্যাখ্যা এই ভিডিওটিতে রয়েছে। নোট করুন যে বাইনারি শ্রেণিবদ্ধকরণের জন্য, লগলস বারিয়ার স্কোরের সমান।
ড্যান

উত্তর:


11

যেখানে এইউসি বাইনারি শ্রেণিবদ্ধার সাথে বিভিন্ন সিদ্ধান্তের দ্বার সহকারে গণনা করা হয়, লগলস আসলে শ্রেণিবিন্যাসের "নিশ্চিততা" বিবেচনায় নেয়।

সুতরাং আমার বোঝার জন্য, লগলস ধারণাটি এওসি ছাড়িয়ে গেছে এবং ভারসাম্যহীন ডেটাযুক্ত ক্ষেত্রে বা অসম বিতরণকৃত ত্রুটির ব্যয়ের ক্ষেত্রে (উদাহরণস্বরূপ একটি মারাত্মক রোগ সনাক্তকরণ) ক্ষেত্রে প্রাসঙ্গিক।

এই খুব বুনিয়াদি উত্তর ছাড়াও, আপনি বাইনারি শ্রেণিবদ্ধকরণ সমস্যাগুলিতে অ্যাক বনাম লগলসকে অনুকূলকরণ করতে চান

লগলাস গণনার একটি সাধারণ উদাহরণ এবং অন্তর্নিহিত ধারণাটি নিয়ে আলোচনা করা হয়েছে সাম্প্রতিক প্রশ্নটিতে লগ লস ফাংশন সাইকিট-লার্নে বিভিন্ন মান দেয়

এছাড়াও, স্ট্যাকওভারফ্লোতে খুব ভাল পয়েন্ট তৈরি করা হয়েছে

যথার্থতা / নির্ভুলতা ইত্যাদির মতো এওসি আরওসি এবং "পয়েন্ট-ওয়াইজ" মেট্রিকের মধ্যে গুরুত্বপূর্ণ পার্থক্যটি বুঝতে হবে আরওসি একটি প্রান্তিকের কাজ। এমন একটি মডেল (শ্রেণিবদ্ধকারী) দেওয়া হয়েছে যা প্রতিটি শ্রেণীর অন্তর্ভুক্ত হওয়ার সম্ভাব্যতার বাইরে চলে যায় আমরা সাধারণত সর্বোচ্চ সমর্থন সহ ক্লাসে উপাদানকে শ্রেণিবদ্ধ করি। যাইহোক, কখনও কখনও আমরা এই নিয়মটি পরিবর্তন করে এবং একটি প্রদত্ত শ্রেণীর হিসাবে শ্রেণিবদ্ধকরণের জন্য অন্যের চেয়ে 2 গুণ বড় হওয়া দরকার বলে আরও ভাল স্কোর পেতে পারি। ভারসাম্যহীন ডেটাসেটের ক্ষেত্রে এটি প্রায়শই সত্য। এইভাবে আপনি আপনার ডেটা আরও ভাল ফিট করার জন্য ক্লাসের পূর্বে শিখে যাওয়া পরিবর্তিত করছেন। আরওসি "যদি আমি এই থ্রোসোল্ডটিকে সমস্ত সম্ভাব্য মানগুলিতে পরিবর্তন করি তবে কী হবে" দেখুন এবং তারপরে এটিসি আরওসি এই জাতীয় বক্রের অবিচ্ছেদ্য গণনা করে।


আপনার প্রথম লিঙ্কটিতে "এইউসি ক্লাসগুলির মধ্যে বৈষম্য করার মডেলের দক্ষতা সর্বাধিক করে তোলে যখন লগলাস বাস্তব এবং আনুমানিক সম্ভাবনার মধ্যে বিভেদকে শাস্তি দেয়" , তাই আমি মূলত জিজ্ঞাসা করছি যে এই দুটি উদ্দেশ্যগুলির মধ্যে আমি কীভাবে বেছে নিই? আমি যদি মডেলটির 'সম্ভাব্যতা' আউটপুটটির সাথে সরাসরি কাজ করি তবে লগলসকে অনুকূলিত করা উচিত (এবং তারপরে সম্ভবত একটি সম্ভাব্যতা ক্রমাঙ্কনও করা উচিত ) যেখানে মনে হয় আমি কঠোর সিদ্ধান্ত নেওয়ার জন্য বাস্তবে এটি শ্রেণিবদ্ধ হিসাবে ব্যবহার করছি যে এটি একটি তাপী বা অন্য আমার এউসির সাথে যাওয়া উচিত?
ড্যান

2
যদি আপনি কেবল একটি সঠিক বা ভুল সিদ্ধান্তের বিষয়ে চিন্তা করেন -> এটিসি ব্যবহার করুন - আপনি কতটা "সঠিক" বা "ভুল" সম্পর্কে চিন্তা করেন যদি -> লগলস ব্যবহার করেন
নিকোলাস রিবেল

পারফরম্যান্স পরিমাপের পরবর্তী কোনও পছন্দ সাধারণীকরণ করা যায় না বরং এটি ডোমেন / অ্যাপ্লিকেশানের উপর নির্ভর করে।
নিকোলাস রিবল
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.