যে কোনও মেট্রিকের মতো, একটি ভাল মেট্রিক হ'ল "বোবা", সম্ভাবনা দ্বারা অনুমান করা হয়, যদি আপনাকে পর্যবেক্ষণগুলির কোনও তথ্য না দিয়ে অনুমান করতে হয়। একে পরিসংখ্যানগুলিতে ইন্টারসেপ্ট-একমাত্র মডেল বলা হয়।
এই "বোবা" - অনুমান 2 কারণের উপর নির্ভর করে:
- ক্লাস সংখ্যা
- ক্লাসগুলির ভারসাম্য: পর্যবেক্ষণ করা ডেটাসেটে তাদের প্রসার
লগলস মেট্রিকের ক্ষেত্রে, একটি সাধারণ "সুপরিচিত" মেট্রিক বলতে হয় যে 0.693 অ-তথ্যমূলক মান। p = 0.5
বাইনারি সমস্যার যে কোনও শ্রেণীর জন্য ভবিষ্যদ্বাণী করে এই চিত্রটি পাওয়া যায় । এটি কেবল ভারসাম্যযুক্ত বাইনারি সমস্যার জন্য বৈধ । কারণ যখন এক শ্রেণির বিস্তার 10% হয়, তখন আপনি p =0.1
সেই শ্রেণীর জন্য ভবিষ্যদ্বাণী করবেন, সর্বদা। এটি আপনার বোবা মনের বেসলাইন, সুযোগ অনুসারে পূর্বাভাস 0.5
হবে কারণ ভবিষ্যদ্বাণী করা ঘন হবে।
I. বোবা-লগলাসে ক্লাসের সংখ্যার প্রভাব N
:
ভারসাম্যপূর্ণ ক্ষেত্রে (প্রতিটি শ্রেণীর ক্ষেত্রে একই বিস্তার রয়েছে), আপনি যখন p = prevalence = 1 / N
প্রতিটি পর্যবেক্ষণের জন্য পূর্বাভাস দেন তখন সমীকরণটি সহজ হয়ে যায়:
Logloss = -log(1 / N)
log
হচ্ছে Ln
যারা যে কনভেনশন ব্যবহারের জন্য, neperian লগারিদম।
বাইনারি ক্ষেত্রে N = 2
,:Logloss = - log(1/2) = 0.693
সুতরাং বোবা-লোগলসগুলি নিম্নলিখিত:
২। বোবা-লগলাসে ক্লাসের বিস্তারের প্রভাব:
ক। বাইনারি শ্রেণিবদ্ধকরণ কেস
এই ক্ষেত্রে, আমরা সর্বদা ভবিষ্যদ্বাণী p(i) = prevalence(i)
করি এবং আমরা নিম্নলিখিত সারণিটি পাই:
সুতরাং, যখন ক্লাসগুলি খুব ভারসাম্যহীন হয় (প্রচলিত <2%), 0.1 এর একটি লগলস আসলে খুব খারাপ হতে পারে! যেমন 98% এর যথার্থতা খারাপ হবে be সুতরাং সম্ভবত লোগলস ব্যবহারের জন্য সেরা মেট্রিক না হবে
খ। থ্রি-ক্লাস কেস
"বোবা" - লোগো প্রচলিত উপর নির্ভর করে - তিন শ্রেণির কেস:
আমরা এখানে ভারসাম্য বাইনারি এবং তিন-শ্রেণীর কেসগুলির মান দেখতে পারি (0.69 এবং 1.1)।
উপসংহার
0.69 এর একটি লগলস একটি মাল্টিক্লাস সমস্যার ক্ষেত্রে ভাল এবং বাইনারি পক্ষপাতদুষ্ট ক্ষেত্রে খুব খারাপ হতে পারে।
আপনার কেসের উপর নির্ভর করে আপনার ভবিষ্যদ্বাণীটির অর্থটি পরীক্ষা করতে আপনি নিজের সমস্যার ভিত্তিটি আরও ভালভাবে গণনা করতে পারেন।
পক্ষপাতদুষ্ট ক্ষেত্রে, আমি বুঝতে পারি যে লগলসের সঠিকতা এবং অন্যান্য ক্ষতির ক্রিয়াকলাপগুলির মতো একই সমস্যা রয়েছে: এটি আপনার কর্মক্ষমতাটির জন্য কেবল একটি বিশ্বব্যাপী পরিমাপ সরবরাহ করে। সুতরাং আপনি সংখ্যালঘু শ্রেণির (স্মরণ এবং নির্ভুলতা) উপর দৃষ্টি নিবদ্ধ রেখে মেট্রিকগুলি দিয়ে আপনার বোঝাপড়ার আরও ভাল করে তুলবেন বা লোগলসটি একেবারেই ব্যবহার করবেন না।