যে শ্রেণিবদ্ধের চেয়ে বেশি নির্ভুল তার চেয়ে কম নির্ভুল এমন শ্রেণিবদ্ধের জন্য কেন এউসি উচ্চতর?


29

আমার দুটি ক্লাসিফায়ার আছে

  • উ: নিষ্পাপ বায়েশিয়ান নেটওয়ার্ক
  • বি: ট্রি (এককভাবে সংযুক্ত) বায়েশিয়ান নেটওয়ার্ক

নির্ভুলতা এবং অন্যান্য ব্যবস্থার ক্ষেত্রে, এ বিয়ের তুলনায় তুলনামূলকভাবে খারাপ সম্পাদন করে তবে আমি যখন আরওসি বিশ্লেষণ সম্পাদন করতে আর প্যাকেজগুলি আরআরসিআর এবং এউসি ব্যবহার করি তখন দেখা যায় যে এ-এর জন্য এটিসি বি এর জন্য এওসি থেকে বেশি, এটি কেন হয়? ঘটছে?

সত্য ধনাত্মক (টিপি), মিথ্যা ধনাত্মক (এফপি), মিথ্যা নেতিবাচক (এফএন), সত্য নেতিবাচক (টিএন), সংবেদনশীলতা (সেন), সুনির্দিষ্টতা (স্পেস), ধনাত্মক ভবিষ্যদ্বাণীমূলক মান (পিপিভি), নেতিবাচক ভবিষ্যদ্বাণীমূলক মান (এনপিভি), এবং ক এবং খ এর যথার্থতা (অ্যাক) নিম্নরূপ।

+------+---------+---------+
|      |    A    |    B    |
+------+---------+---------+
| tp   | 3601    | 769     |
| fp   | 0       | 0       |
| fn   | 6569    | 5918    |
| tn   | 15655   | 19138   |
| sens | 0.35408 | 0.11500 |
| spec | 1.00000 | 1.00000 |
| ppv  | 1.00000 | 1.00000 |
| npv  | 0.70442 | 0.76381 |
| acc  | 0.74563 | 0.77084 |
+------+---------+---------+

প্রান্তিকের উপর সংবেদন এবং বন্ধন (স্পেক এবং পিপিভি) বাদ দিয়ে (টিপি, এফএন, এফএন, এবং টিএন বাদে) বি এ এর ​​চেয়ে আরও ভাল পারফরম্যান্স বলে মনে হচ্ছে seems

আমি যখন সংবেদন (y-axis) বনাম 1-স্পেস (এক্স-অক্ষ) এর জন্য AUC গণনা করি

aucroc <- auc(roc(data$prediction,data$labels));

এখানে এউসি তুলনা করা হচ্ছে।

+----------------+---------+---------+
|                |    A    |    B    |
+----------------+---------+---------+
| sens vs 1-spec | 0.77540 | 0.64590 |
| sens vs spec   | 0.70770 | 0.61000 |
+----------------+---------+---------+

সুতরাং এখানে আমার প্রশ্নগুলি:

  • যথাযথতার সাথে "খ" যখন A কে ছাড়িয়ে যায় বলে বি এর চেয়ে আরও ভাল কেন, তবে এইউসি?
  • সুতরাং, আমি কীভাবে সত্যিই A / B এর শ্রেণিবিন্যাসের পারফরম্যান্স বিচার / তুলনা করব? মানে, আমি কি এওসি মানটি ব্যবহার করব? আমি কি AC মানটি ব্যবহার করব এবং যদি তাই হয় কেন?
  • তদ্ব্যতীত, আমি যখন এ এবং বি-তে যথাযথ স্কোরিং নিয়মগুলি প্রয়োগ করি, তখন ল লগ ক্ষতি, চতুর্ভুজ হ্রাস এবং গোলাকার ক্ষতির ক্ষেত্রে বি কে ছাড়িয়ে যায় (পি <0.001)। এউসির সাথে শ্রদ্ধার সাথে শ্রেণিবিন্যাসের পারফরম্যান্স বিচার করার ক্ষেত্রে এগুলি কীভাবে ওজন পাবে?
  • এ এর জন্য আরওসি গ্রাফটি দেখতে খুব মসৃণ দেখাচ্ছে (এটি একটি বাঁকানো চাপ) তবে বি এর জন্য আরওসি গ্রাফ সংযুক্ত লাইনের একটি সেটের মতো দেখায়। কেন?

অনুরোধ হিসাবে, এখানে মডেল এ এর ​​প্লটগুলি are

মডেল একটি নিষ্পাপ বেয়েস নেট

এখানে মডেল বি এর প্লটগুলি রয়েছে are

মডেল বি নিয়মিত বেয়েস নেট

এ এবং বি এর সম্ভাব্যতা বিতরণের হিস্টগ্রাম প্লটগুলি এখানে রয়েছে (ব্রেক 20 এ সেট করা আছে)।

হিস্টোগ্রাম প্লট

বি বনাম এ এর ​​সম্ভাব্যতার বিস্তৃত প্লট এখানে রয়েছে is

বিক্ষিপ্ত প্লট


1
আপনার টেবিলগুলি কোনও অর্থবোধ করে না: আপনি সেই বিন্দুটি কীভাবে বেছে নিয়েছিলেন যেখানে আপনি এই কার্য সম্পাদনের মানগুলি গণনা করছেন?
ক্যালিমো

3
মনে রাখবেন AUC সমস্ত সম্ভাব্য প্রান্তিকের উপরের পারফরম্যান্সকে পরিমাপ করে । এটি সাহায্য করবে (আপনি পাশাপাশি) যদি আপনি বক্ররেখা প্রদর্শন করতে পারেন (আদর্শ একই প্লটটিতে)।
ক্যালিমো

@ ক্যালিমো দুঃখিত, আমি সেই তথ্যটি অন্তর্ভুক্ত করতে ভুলে গিয়েছিলাম, তবে এই দ্বিধাটি ম্যাট্রিক্স তৈরি করতে প্রান্তিকতাটি 50% ছিল।
জেন ওয়েইন

আপনার মানে 0.5? এ এবং বি এর পূর্বাভাসিত মানগুলি স্পষ্টভাবে আলাদা দেখাচ্ছে এবং আপনি যদি এখনও ইঙ্গিতটি না পেয়ে থাকেন তবে আপনার অবশ্যই হিস্টোগ্রাম পাশাপাশি পাশাপাশি করা উচিত ...
Calimo

@ ক্যালিমো আপনি কি দয়া করে স্পষ্ট করে বলতে পারবেন, পাশের পাশের হিস্টোগ্রামগুলি?
জেন ওয়েইন

উত্তর:


27

cDxy


6
cc

1
@alto, 0.5 অত্যন্ত স্বেচ্ছাসেবী, সবচেয়ে অস্বাভাবিক ইউটিলিটি / ক্ষতি / ব্যয় কার্যকারিতার সাথে মিলে যায় যেখানে দুটি ধরণের ত্রুটি সমানভাবে খারাপ। এটি খুব কম ক্ষেত্রেই হয়। সম্ভাব্যভাবে ভাবছেন, প্রকৃতি যেভাবে কাজ করে সেভাবেই আমি বিশ্বাস করি এটি একটি "ভুল" বলে কিছু নেই, বরং ঝুঁকির পূর্বাভাসের কিছুটা খারাপতা রয়েছে। উদাহরণস্বরূপ, 0.6 এর সম্ভাব্যতার পূর্বাভাস দেওয়ার পরে একটি ইভেন্ট পর্যবেক্ষণ করা 0.9 এর সম্ভাবনা পূর্বাভাস দেওয়ার এবং তারপরে একটি ইভেন্ট পর্যবেক্ষণের চেয়ে খারাপ is তবে উভয়ই ভবিষ্যদ্বাণী করা "ভুল" নয়। আপনি সম্ভাবনার নির্ভুলতার স্কোরগুলি ব্যবহার করতে পারেন যার জন্য কোনও প্রান্তিকের প্রয়োজন নেই।
ফ্রাঙ্ক হ্যারেল

3
লজিস্টিকের মতো একটি আনবাউন্ডেড মডেল অন্য কোনও পদ্ধতির চেয়ে বেশি মানানসই নয়। যৌক্তিক রূপান্তরটি নিশ্চিত করে যে সম্ভাবনার প্রাক্কলনগুলি ভালভাবে আচরণ করা হয়েছে। লগারিদমিক স্কোরিং নিয়মের একমাত্র নেতিবাচক দিকটি হ'ল যদি আপনি 0 বা 1 এর খুব কাছাকাছি সম্ভাবনার পূর্বাভাস দেন এবং আপনি "ভুল" হন। এটি সত্য যে শেষ পর্যন্ত কোনও সিদ্ধান্ত নেয় তবে এটি কোনও ক্ষেত্রেই অনুসরণ করে না যা বিশ্লেষককে একটি প্রান্তিক ব্যবহার করে সিদ্ধান্ত নেওয়া উচিত। সিদ্ধান্তটি সিদ্ধান্ত প্রস্তুতকারকের কাছে পিছিয়ে দেওয়া উচিত। নাট সিলভারের বই সিগন্যাল এবং নয়েজ সম্ভাব্য চিন্তাভাবনার দুর্দান্ত সুবিধা উপায়ে দেয়।
ফ্রাঙ্ক হ্যারেল

1
@ ফ্র্যাঙ্কহারেল, হতাশার বিষয় যে আপনি আমার মতামতকে ভুল ধারণা দিয়ে চলেছেন। আমি কখনও ব্ল্যাক বক্স পদ্ধতির পক্ষে ছিলাম না। আমি কেবল আপনার "x টি অকেজো, কেবল y ব্যবহার করুন" বিবৃতিটি খুব শক্তিশালী বলে মনে করি।
অল্টো

4
@ অ্যাল্টো যে উপলব্ধিযোগ্য। আমি মনে করি রিয়েল-টাইম প্যাটার্ন স্বীকৃতিতে ইউটিলিটির জন্য সময় নেই। এটি আমি যে জগতে কাজ করি তা নয় But যাত্রী গাড়ী".
ফ্রাঙ্ক হ্যারেল

16
  1. যথাযথতার সাথে "খ" যখন A কে ছাড়িয়ে যায় বলে বি এর চেয়ে আরও ভাল কেন, তবে এইউসি?

    যথার্থতা 0.5 এর প্রান্তিক মান গণনা করা হয়। যদিও এউসি সমস্ত সম্ভাব্য প্রান্তিক মানগুলির জন্য গণনা করা সমস্ত "অ্যাকুয়েরেসি" যুক্ত করে গণনা করা হয়। যখন সমস্ত থ্রোসোল্ড মানের জন্য গণনা করা হয় তখন আরওসি সেই সমস্ত যথাযথতার গড় (প্রত্যাশিত মান) হিসাবে দেখা যায়।

  2. সুতরাং, আমি কীভাবে এ এবং বি এর শ্রেণিবিন্যাসের পারফরম্যান্সকে বিচার / তুলনা করব? মানে, আমি কি এউসি মানটি ব্যবহার করব? আমি কি এ্যাক মানটি ব্যবহার করব? এবং কেন?

    এটা নির্ভর করে. আরওসি রেখাচিত্রগুলি আপনার মডেলটি কতটা প্রান্তিক মান যেখানেই বিবেচনা না করে আপনার মডেলটি দুটি শ্রেণি আলাদা করে দেয় সে সম্পর্কে আপনাকে কিছু বলবে। যথার্থতা এমন একটি পরিমাপ যা সাধারণত ভালভাবে কাজ করে যখন ক্লাসগুলি ট্রেন এবং পরীক্ষার সেটগুলিতে একই ভারসাম্য রাখে এবং যখন স্কোরগুলি সত্যই সম্ভাবনা থাকে abilities এই ধারনা লঙ্ঘন করা হলে মডেল কীভাবে আচরণ করবে সে সম্পর্কে আরওসি আপনাকে আরও ইঙ্গিত দেয় (তবে এটি কেবলমাত্র একটি ধারণা)।

  3. তদ্ব্যতীত, আমি যখন এ এবং বি-তে যথাযথ স্কোরিং নিয়মগুলি প্রয়োগ করি, তখন ল লগ ক্ষতি, চতুর্ভুজ ক্ষয় এবং গোলাকার ক্ষতির ক্ষেত্রে বি কে ছাড়িয়ে যায় (পি <0.001)। এউসির সাথে শ্রদ্ধার সাথে শ্রেণিবিন্যাসের পারফরম্যান্স বিচার করার ক্ষেত্রে এগুলি কীভাবে ভারী হয়?

    আমি জানি না. আপনার ডেটা কী সম্পর্কে আপনাকে আরও ভাল করে বুঝতে হবে। প্রতিটি মডেল আপনার ডেটা থেকে বুঝতে সক্ষম। এবং পরে সিদ্ধান্ত নিন কোনটি সেরা সমঝোতা। এর কারণ হ'ল শ্রেণিবদ্ধ কর্মক্ষমতা সম্পর্কে কোনও সার্বজনীন মেট্রিক নেই।

  4. এ এর জন্য আরওসি গ্রাফটি খুব মসৃণ দেখাচ্ছে (এটি একটি বাঁকা তোরণ) তবে বি এর জন্য আরওসি গ্রাফটি সংযুক্ত রেখার সংকলনের মতো দেখায়। কেন?

    সম্ভবত এটি কারণ বায়সিয়ান মডেল আপনাকে সেই দুটি শ্রেণির মধ্যে মসৃণ স্থানান্তর দেয়। এটি বহু প্রান্তিক মান অনুবাদ করা হয়। যার অর্থ আরওসি বক্ররেখাতে অনেকগুলি পয়েন্ট। ইনপুট স্পেসের বৃহত অঞ্চলগুলিতে একই মানের সাথে পূর্বাভাসের কারণে দ্বিতীয় মডেল সম্ভবত কম মান উত্পাদন করে। মূলত, প্রথম আরওসি বক্ররেখাগুলি লাইন দ্বারা তৈরি করা হয়, পার্থক্য কেবলমাত্র এতগুলি সংলগ্ন ছোট ছোট লাইন রয়েছে যে আপনি এটি বক্ররেখা হিসাবে দেখেন।


1
যথার্থতা 0.5 এর বাইরে থ্রেশোল্ড মানগুলিতে গণনা করা যেতে পারে।
Calimo

অবশ্যই আপনি ঠিক। সে কারণেই আমি পরের প্রস্তাবটিতে "অ্যাকুয়েরেসি" ব্যবহার করেছি। যাইহোক, যখন কেউ নির্ভুলতার বিষয়ে কথা বলেন, অন্য প্রসঙ্গের তথ্য ছাড়াই, প্রান্তিক মানের সর্বোত্তম অনুমান 0.5 হয়।
রাপাইও

2
এ জাতীয় প্রক্রিয়াটি কতটা নির্বিচারে তা সহজেই দেখা যায়। পরিসংখ্যানগুলিতে খুব কম অনুমানকারী যেগুলি বিন্ন বা স্বেচ্ছাসেবী পছন্দগুলির প্রয়োজন ভারী সমালোচনা ছাড়াই বেঁচে আছে। এবং আমি কখনই অনুপাতকে শ্রেণিবদ্ধ হিসাবে "নির্ভুলতা" হিসাবে সঠিক বলব না।
ফ্র্যাঙ্ক হ্যারেল

@ অযৌক্তিক ইলেকশনার আপনি নিজের অনুমানের উপরেই রয়েছেন .. উপরের বিভ্রান্তির ম্যাট্রিক্সটি 0.5 নম্বরের উপরে গণনা করা হয়েছিল। একটি আলাদা দোরগোড়ায় কোন সুবিধা আছে?
জেন ওয়েইন

1
@ জেনওয়েনে সূত্রটি প্রকৃত শ্রেণিবদ্ধের অনুপাতের জন্য। নির্ভুলতা এটির জন্য প্রায়শই ব্যবহৃত শব্দ। তবে নির্ভুলতার অর্থ অনেক বেশি, এবং ফ্রাঙ্ক হ্যারেল যা বলেছিলেন তার আলোকে আমি এখন মনে করি যে নির্ভুলতা এটির পক্ষে সেরা শব্দ নয়। এখন আমি ভাবি যে এটির ব্যবহার জনপ্রিয় হলেও এটির ক্ষতি হতে পারে। আমি এইভাবে ভুল ছিল।
রপাইও

4

যথাযথতার সাথে "খ" যখন A কে ছাড়িয়ে যায় বলে বি এর চেয়ে আরও ভাল কেন, তবে এইউসি?

প্রথমত, যদিও কাট অফ (0.5) একই, এটি এ এবং বি এর মধ্যে একেবারেই তুলনীয় নয় বাস্তবে, এটি আপনার হিস্টোগ্রামগুলির থেকে একেবারেই আলাদা দেখাচ্ছে! খ দেখুন: আপনার সমস্ত অনুমান <0.5।

দ্বিতীয়ত, বি এত নির্ভুল কেন? শ্রেণি ভারসাম্যহীনতার কারণে। বি পরীক্ষায় আপনার 19138 নেতিবাচক উদাহরণ রয়েছে, এবং 6687 ধনাত্মক (কেন এ এর ​​মধ্যে সংখ্যাগুলি পৃথক হয় তা আমার কাছে অস্পষ্ট: মানগুলি অনুপস্থিত হতে পারে?)। এর অর্থ হ'ল সবকিছুকে নেতিবাচক বলে দেওয়ার মাধ্যমে, আমি ইতিমধ্যে বেশ ভাল নির্ভুলতা অর্জন করতে পারি: অবিকল 19138 / (19138 + 6687) = 74%। মনে রাখবেন যে ক্লাসগুলির মধ্যে ভারসাম্যহীনতা রয়েছে এর বাইরে একেবারেই কোনও জ্ঞানের প্রয়োজন নেই: এমনকি নির্বোধ মডেলও এটি করতে পারে!

এবং এটি পরীক্ষা বি ঠিক ঠিক 0.5 সীমাতে করে ... আপনি (প্রায়) কেবলমাত্র নেতিবাচক ভবিষ্যদ্বাণী পান।

এ সহ একটি মিশ্র ব্যাগ বেশি। যদিও এর সামান্য কম নির্ভুলতা রয়েছে, তবে খেয়াল করুন যে এটি সংবেদনশীলতা এই কাট-অফের তুলনায় অনেক বেশি ...

পরিশেষে, আপনি যথাযথতা (এক প্রান্তিকের একটি পারফরম্যান্স) এউসির সাথে তুলনা করতে পারবেন না (সমস্ত সম্ভাব্য প্রান্তিকের গড় পারফরম্যান্স)। এই মেট্রিকগুলি বিভিন্ন জিনিস পরিমাপ করে, আশ্চর্যজনক নয় যে এগুলি পৃথক।

সুতরাং, আমি কীভাবে সত্যিই A / B এর শ্রেণিবিন্যাসের পারফরম্যান্স বিচার / তুলনা করব? মানে আমি কি এউসি মানটি ব্যবহার করব? আমি কি এ্যাক মানটি ব্যবহার করব? এবং কেন?

তদ্ব্যতীত, আমি যখন এ এবং বি-তে যথাযথ স্কোরিং নিয়মগুলি প্রয়োগ করি, তখন ল লগ ক্ষতি, চতুর্ভুজ হ্রাস এবং গোলাকার ক্ষতির ক্ষেত্রে বি কে ছাড়িয়ে যায় (পি <0.001)। এউসির সাথে শ্রদ্ধার সাথে শ্রেণিবিন্যাসের পারফরম্যান্স বিচার করার ক্ষেত্রে এগুলি কীভাবে ওজন পাবে?

আপনার ভাবতে হবে: আপনি আসলে এটি কী করতে চান? কি গুরুত্বপূর্ণ? শেষ পর্যন্ত, আপনি কেবল আপনার প্রশ্নের জ্ঞানের ভিত্তিতে এই প্রশ্নের উত্তর দিতে পারবেন। সম্ভবত এইউসিটি বুদ্ধিমান হয়েছে (আপনি সত্যিই এটির বিষয়ে চিন্তাভাবনা করলে খুব কমই সত্যিই তা ঘটে, আপনি নিজেরাই সিদ্ধান্ত নিতে চান না তবে অন্যকে তা করতে দেন - সম্ভবত অন্যদের ব্যবহারের জন্য কোনও সরঞ্জাম তৈরি করা থাকলে সম্ভবত) যথার্থতা (আপনার যদি বাইনারি দরকার হয় তবে গো উত্তর দিন না), তবে বিভিন্ন থ্রেশহোল্ডে হতে পারে, আরও কিছু ধারাবাহিক ব্যবস্থাও হতে পারে, ফ্র্যাঙ্ক হ্যারেলের প্রস্তাবিত একটি পদক্ষেপ ... ইতিমধ্যে উল্লিখিত হিসাবে, কোনও সর্বজনীন প্রশ্ন নেই এখানে.

এ এর জন্য আরওসি গ্রাফটি দেখতে খুব মসৃণ দেখাচ্ছে (এটি একটি বাঁকানো চাপ) তবে বি এর জন্য আরওসি গ্রাফ সংযুক্ত লাইনের একটি সেটের মতো দেখায়। কেন?

আপনি হিস্টোগ্রামগুলিতে যে ভবিষ্যদ্বাণীগুলি দেখিয়েছেন সেগুলিতে ফিরে যান। এ আপনাকে একটি অবিচ্ছিন্ন বা প্রায়-ধারাবাহিক পূর্বাভাস দেয়। বিপরীতে, বি বেশিরভাগ মাত্র কয়েকটি পৃথক মান প্রদান করে (যেমন আপনি "স্পিকি" হিস্টোগ্রাম দ্বারা দেখতে পাচ্ছেন)।

একটি আরওসি বক্ররেখায়, প্রতিটি বিন্দু একটি প্রান্তিকের সাথে মিলে যায়। এ-তে আপনার অনেকগুলি দোরগোড়া রয়েছে (কারণ ভবিষ্যদ্বাণীগুলি অবিচ্ছিন্ন), তাই বক্রটি মসৃণ। বি তে, আপনার কেবল কয়েকটি থ্রেশহোল্ড রয়েছে, সুতরাং বক্ররেখাটি একটি এসএন / এসপি থেকে অন্যটিতে "জাম্প" দেখায়।

সংবেদনশীলতা যখন পরিবর্তিত হয় তখন আপনি উল্লম্ব লাফান দেখতে পাবেন (প্রান্তিকতা কেবল ইতিবাচক ক্ষেত্রে পার্থক্য তৈরি করে), নির্দিষ্টতা পরিবর্তিত হলে অনুভূমিক লাফ দেয় (প্রান্তিকতা কেবল নেতিবাচক উদাহরণগুলির জন্য পার্থক্য তৈরি করে), এবং প্রান্তিক পরিবর্তন যখন উভয় শ্রেণিকে প্রভাবিত করে।


+1, তবে, বিষয়টি এমন নয় যে এটিসি কেবলমাত্র "যখন আপনি নিজেই কোনও সিদ্ধান্ত নিতে চান না তবে অন্যকে তা করতে দেন" for দেখুন: হাতের সাহায্যে বক্ররেখার আওতাধীন অঞ্চল (এউসি) বা সি-স্ট্যাটিস্টিক কীভাবে গণনা করা যায়
গুং - মনিকা পুনরায়
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.