শ্রেণিবদ্ধের মূল্যায়ন করার সময় কীভাবে ত্রুটি মেট্রিক চয়ন করবেন?


15

আমি কেগল প্রতিযোগিতায় ব্যবহৃত বিভিন্ন ত্রুটি মেট্রিকগুলি দেখেছি: আরএমএস, গড়-বর্গক্ষেত্র, এউসি, অন্যদের মধ্যে। একটি ত্রুটি মেট্রিক বেছে নেওয়ার ক্ষেত্রে সাধারণ নিয়ম কী, অর্থাত আপনি প্রদত্ত সমস্যার জন্য কোন ত্রুটি মেট্রিকটি ব্যবহার করবেন তা আপনি কীভাবে জানবেন? কোন নির্দেশিকা আছে?

উত্তর:


12

আপনি চয়ন করতে পারেন ত্রুটি মেট্রিকের পুলটি শ্রেণিবদ্ধকরণ এবং রিগ্রেশন এর মধ্যে পৃথক। পরবর্তী সময়ে আপনি একটি অবিচ্ছিন্ন মান পূর্বাভাস দেওয়ার চেষ্টা করেন এবং শ্রেণিবিন্যাসের সাথে আপনি "স্বাস্থ্যকর" বা "স্বাস্থ্যকর নয়" এর মতো বিচ্ছিন্ন শ্রেণির পূর্বাভাস দেন। আপনার উল্লিখিত উদাহরণগুলি থেকে, মূল শ্রেণীর ত্রুটি দুটি শ্রেণীর সাথে শ্রেণিবদ্ধকরণের জন্য রিগ্রেশন এবং এউসি-র জন্য প্রযোজ্য।

শ্রেণিবিন্যাস সম্পর্কে আমি আপনাকে আরও কিছুটা বিশদ দেব। আপনি একটি পরিমাপ হিসাবে AUC উল্লেখ করেছেন, যা আরওসি বক্ররেখার অধীনে অঞ্চল, যা সাধারণত দুটি বর্গ সহ কেবল বাইনারি শ্রেণিবদ্ধকরণ সমস্যায় প্রয়োগ করা হয়। যদিও, আরও দুটি শ্রেণীর জন্য একটি আরওসি বক্ররেখা তৈরি করার উপায় রয়েছে, তারা দুটি শ্রেণীর জন্য আরওসি বক্ররেখা সরলতা .িলা করে। তদতিরিক্ত, আরওসি বক্ররেখা কেবল তখনই নির্মিত হতে পারে যদি পছন্দের শ্রেণিবদ্ধকারী প্রতিটি পূর্বাভাসের সাথে যুক্ত কিছু ধরণের স্কোর আউটপুট করে। উদাহরণস্বরূপ, লজিস্টিক রিগ্রেশন আপনাকে দুটি ক্লাসের প্রতিটিটির জন্য সম্ভাব্যতা দেয়। তাদের সরলতার পাশাপাশি আরওসি বক্ররেখাগুলির সুবিধা রয়েছে যে তারা আপনার ডেটাসেটগুলিতে ইতিবাচক এবং নেতিবাচক লেবেলযুক্ত দৃষ্টান্তগুলির মধ্যে অনুপাতের দ্বারা প্রভাবিত হবে না এবং আপনাকে একটি চৌম্বক পছন্দ করতে বাধ্য করবেন না। তবুও, কেবল আরওসি বক্ররেখাটিই নয় বরং অন্যান্য ভিজ্যুয়ালাইজেশনের দিকেও নজর দেওয়া উচিত। আমি যথার্থ-রিক্যাল রেভেল রেখাঙ্কন এবং মূল্য-বক্ররেখাগুলি একবার দেখার পরামর্শ দিই।একটি সত্য ত্রুটি পরিমাপ, তাদের সকলের শক্তি এবং দুর্বলতা রয়েছে।

এই ক্ষেত্রে আমি যে সাহিত্যগুলি সহায়ক বলে মনে করেছি সেগুলি হ'ল:

যদি আপনার শ্রেণিবদ্ধকারী কোনও ধরণের স্কোর সরবরাহ না করে তবে আপনাকে সেই মৌলিক পদক্ষেপগুলিতে ফিরে যেতে হবে যা সত্য ধনাত্মক, মিথ্যা ধনাত্মক, সত্য নেতিবাচক এবং মিথ্যা নেতিবাচক সংখ্যার সমন্বিত বিভ্রান্তির ম্যাট্রিক্স থেকে প্রাপ্ত হতে পারে । উপরে বর্ণিত ভিজ্যুয়ালাইজেশনগুলি (আরওসি, নির্ভুলতা-পুনর্বিবেচনা, দামের বক্ররেখা) সমস্ত শ্রেণিবদ্ধকারীর স্কোরের পৃথক থ্রোসোল্ড ব্যবহার করে প্রাপ্ত এই টেবিলগুলির উপর ভিত্তি করে। এই ক্ষেত্রে সর্বাধিক জনপ্রিয় পরিমাপটি সম্ভবত এফ 1-পরিমাপ। এছাড়াও, একটি বিভ্রান্তির ম্যাট্রিক্স থেকে আপনি যে পরিমাপগুলি পুনরুদ্ধার করতে পারবেন তার একটি দীর্ঘ তালিকা রয়েছে: সংবেদনশীলতা, নির্দিষ্টতা, ইতিবাচক ভবিষ্যদ্বাণীমূলক মান, নেতিবাচক ভবিষ্যদ্বাণীমূলক মান, যথার্থতা, ম্যাথিউস পারস্পরিক সম্পর্ক সহগ,… আরওসি বক্ররেখার মতো, বিভ্রান্তির ম্যাট্রিকগুলি খুব সহজেই বোঝা যায় বাইনারি শ্রেণিবদ্ধকরণ সমস্যা, তবে একাধিক ক্লাসের সাথে আরও জটিল হয়ে উঠুন, কারণ ক্লাসগুলির জন্য আপনাকে অন্য একটির সাথে ক্লাসের ( ) তুলনা করে প্রতিটি একক টেবিল বা টেবিলকে বিবেচনা করতে হবে ক্লাস (না )।এনএন×এনএন 2×2একজনএকজন


1
এনএন×এনএন 2×2

এই ভুলটি নির্দেশ করার জন্য অনেক ধন্যবাদ, আমি উপরের উত্তরে এটি সংশোধন করেছি।

5

ইতিমধ্যে বিদ্যমান উত্তরগুলিতে আমাকে আরও কিছু চিন্তা যুক্ত করুন।

  • বেশিরভাগ শ্রেণিবদ্ধদের আসলে একটি অন্তর্বর্তী অবিচ্ছিন্ন স্কোর থাকে, যার উপর সাধারণত হার্ড ক্লাস নির্ধারনের জন্য একটি প্রান্তিক স্তর (নীচে টি: ক্লাস এ, উপরে: শ্রেণি বি) প্রয়োগ করা হয়। এই প্রান্তিকের পরিবর্তিত হওয়ার ফলে আরওসি পাওয়া যায়।
  • সাধারণভাবে, এই জাতীয় বক্ররেখাটিকে একটি সংখ্যায় সংকুচিত করা ভাল ধারণা নয় । ইনডাকশন অ্যালগরিদমের তুলনা করার জন্য নির্ভুলতার অনুমানের বিরুদ্ধে কেস দেখুন
    এখানে অনেকগুলি বিভিন্ন আরওসি রয়েছে যা একই এউসি রয়েছে এবং প্রদত্ত অ্যাপ্লিকেশনটির জন্য উপযোগিতা ব্যাপকভাবে পরিবর্তিত হতে পারে।
  • অন্য উপায়ে: প্রান্তিকের পছন্দটি আপনার কাছে থাকা অ্যাপ্লিকেশনটির দ্বারা নির্ধারিত হতে পারে।
  • আপনাকে এই সীমানার বাইরে শ্রেণিবদ্ধের পারফরম্যান্সটি দেখার দরকার নেই এবং যদি আপনি একটি মেট্রিক চয়ন করেন তবে এটি অন্তত সীমিত অন্যান্য মেট্রিকগুলির প্রাসঙ্গিক পরিসীমা সংক্ষিপ্ত করা উচিত।
  • আপনার অধ্যয়নের নকশার উপর নির্ভর করে সঠিকভাবে বা ভুল শ্রেণিবদ্ধ নমুনাগুলির সামগ্রিক ভগ্নাংশ একটি উপযুক্ত সংক্ষিপ্তসার হতে পারে বা নাও হতে পারে এবং আপনি যে সিদ্ধান্তগুলি থেকে আঁকতে পারেন তাও অধ্যয়ন নকশার উপর নির্ভর করবে: আপনার পরীক্ষার ডেটা কি পূর্বের সম্ভাবনাগুলি (প্রসার) প্রতিফলিত করে? ক্লাস? যে জনসংখ্যার জন্য আপনার শ্রেণিবদ্ধ ব্যবহার করার কথা রয়েছে? এটি কি স্তরবদ্ধভাবে সংগ্রহ করা হয়েছিল? এটি শ্রেণিবদ্ধের বেশিরভাগ ব্যবহারকারী ভবিষ্যদ্বাণীপূর্ণ মানগুলিতে বেশি আগ্রহী এমনটির সাথে এটি জড়িত, তবে সংবেদনশীলতা এবং নির্দিষ্টতা পরিমাপ করা আরও অনেক সহজ।

  • আপনি সাধারণ নির্দেশিকা সম্পর্কে জিজ্ঞাসা করুন। একটি সাধারণ নির্দেশিকা হ'ল আপনার জানা দরকার

    • আপনার কী ধরণের পারফরম্যান্স প্রয়োজন (সংবেদনশীলতা, নির্দিষ্টতা, ভবিষ্যদ্বাণীমূলক মান ইত্যাদি etc. আপনার শ্রেণিবদ্ধের আচরণ সম্পর্কে সুনির্দিষ্ট প্রশ্নের উত্তর দিন, আমি এখানে কী লিখেছি তা দেখুন )।
    • আপনার আবেদনের জন্য এই পারফরম্যান্স বৈশিষ্ট্যের জন্য কোন গ্রহণযোগ্য কাজ করার সীমা?
      এগুলি ব্যাপকভাবে পরিবর্তিত হতে পারে: আপনি স্প্যাম সনাক্তকরণে বেশ কিছু মিথ্যা-নেতিবাচক গ্রহণ করতে ইচ্ছুক হতে পারেন, তবে এটি এইচআইভি সনাক্তকরণের জন্য গ্রহণযোগ্য সেটআপ হবে না ...

আমি মনে করি আপনি এই প্রশ্নের উত্তর না দিয়ে আপনি কোনও কার্যকর মেট্রিক খুঁজে পাবেন না able

এটি কিছুটা হলেও শ্রেণিবদ্ধকরণের যাচাইকরণের জন্য নিখরচায় দুপুরের খাবার নেই।


2

প্রত্যাশিত বিযুক্তি ত্রুটির হার হ'ল আমি যে পদ্ধতিটি ব্যবহার করেছি এবং প্রায়শই দেখি। আরওসি এর এউসি হ'ল শ্রেণিবিন্যাসের নিয়মের একটি সেট। যদি ধারণাটি নির্দিষ্ট শ্রেণিবদ্ধের সাথে অন্যের সাথে তুলনা করা হয় তবে তবে এওসি উপযুক্ত নয়। শ্রেণিবিন্যাস ত্রুটির কিছু ফর্ম সর্বাধিক বোধগম্য করে কারণ এটি শ্রেণিবিন্যাসের বিধিটির প্রত্যক্ষভাবে কার্য সম্পাদন করে।

পুনর্গঠন অনুমানের বৃহত পক্ষপাত এবং ছুটি-ওয়ান-আউটের উচ্চতম বৈচিত্রের কারণে শ্রেণিবিন্যাস ত্রুটির হারের ভাল অনুমানের সন্ধান করতে অনেক কাজ চলে গেছে। বুটস্ট্র্যাপ এবং মসৃণ অনুমানক উদ্বেগিত হয়েছে। উদাহরণস্বরূপ ক্রস বৈধকরণের চেয়ে বুটস্ট্র্যাপের উন্নতি সম্পর্কে 1983-এ জাসা-এ এফ্রনের কাগজ দেখুন।

ইফ্রন এবং তিবশিরামির 1995 সালের স্ট্যানফোর্ড বিশ্ববিদ্যালয়ের একটি প্রযুক্তিগত প্রতিবেদন আমার নিজস্ব কিছু কাজ সহ সাহিত্যের সংক্ষিপ্তসার রয়েছে।


একই ডেটাসেটে দুটি শ্রেণিবদ্ধের পারফরম্যান্সের তুলনা করা নিয়ে তর্ক করার আরও একটি বিষয়। বিশেষত, আরওসি এবং এউসি-র ক্ষেত্রে পুরোপুরি আরওসি বক্ররেখার তুলনা করার জন্য বেশ কয়েকটি পদ্ধতি রয়েছে বা এটিসি অনুমান। সেগুলি নাল অনুমানের সাথে মূলত পরিসংখ্যানগত পরীক্ষা যা আরওসি / এইউসি পৃথক করে না fer ক্রস-বৈধকরণ বনাম বুটস্ট্র্যাপ আরেকটি আকর্ষণীয় বিষয়, আমি সম্প্রতি সে সম্পর্কে একটি কাগজ ( dx.doi.org/10.1016/j.csda.2010.03.004 ) দেখেছি । আমার ধারণা আপনি যদি একবারে সমস্ত দিক বিবেচনা করেন তবে এটি বেশ ভয়ঙ্কর হতে পারে।
sebp
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.