এটিউ বনাম মান যথাযথতার সুবিধা

63

আমি বক্ররেখার অধীনে অঞ্চলটি অনুসন্ধান করতে শুরু করেছি (এউসি) এবং এর কার্যকারিতা সম্পর্কে কিছুটা বিভ্রান্ত হয়ে পড়েছি। যখন আমাকে প্রথম ব্যাখ্যা করা হয়েছিল, এটিউসি পারফরম্যান্সের একটি দুর্দান্ত পরিমাপ বলে মনে হয়েছিল তবে আমার গবেষণায় আমি দেখেছি যে কেউ কেউ দাবি করেছেন যে এর সুবিধা বেশিরভাগ ক্ষেত্রেই প্রান্তিক যে উচ্চতর মানের নির্ভুলতার পরিমাপ এবং কম এউসির সাথে 'ভাগ্যবান' মডেলগুলি ধরার জন্য এটি সেরা claim ।

তাহলে আমি কি মডেলগুলিকে যাচাইয়ের জন্য এউসির উপর নির্ভর করা এড়ানো উচিত বা একটি সংমিশ্রণটি সেরা হতে পারে? সব আপনার সাহায্যের জন্য ধন্যবাদ।

machine-learning accuracy

— aidankmcl
সূত্র

5

একটি অত্যন্ত ভারসাম্যহীন সমস্যা বিবেচনা করুন। সেখানেই আরওসি এউসি খুব জনপ্রিয়, কারণ বক্ররেখা শ্রেণীর আকারকে ভারসাম্যপূর্ণ করে। এমন একটি ডেটা সেট যেখানে 99% অবজেক্ট একই শ্রেণিতে থাকে সেখানে 99% নির্ভুলতা অর্জন করা সহজ।

— অ্যানি-মৌসে

3

"আপনারা খুব নমুনা বন্টন করে এমন পরিস্থিতি মোকাবেলা করা এবং একটি একক শ্রেণীর চেয়ে বেশি পদক্ষেপ নিতে চান না," এউসির অন্তর্নিহিত লক্ষ্য। আমি ভেবেছিলাম যে এই পরিস্থিতিগুলি যেখানে এউসি খারাপভাবে সম্পাদন করেছিল এবং তাদের অধীনে যথার্থ-প্রত্যাহার গ্রাফ / অঞ্চল ব্যবহার করা হত।

— জেনএসসিডিসি

@ জেনএসসিডিসি, এই পরিস্থিতিতে আমার অভিজ্ঞতা থেকে এইউসি ভাল পারফরম্যান্স করে এবং নীচে বর্ণিত সূচী হিসাবে বর্ণনা করা হয় এটি আরওসি বক্ররেখা থেকে আপনি সেই অঞ্চলটি পেয়েছেন। পিআর গ্রাফটিও দরকারী (দ্রষ্টব্য যে রিক্যালটি টিপিআর হিসাবে একই, আরওসি-র একটি অক্ষের মধ্যে একটি) তবে যথার্থতা এফপিআরের মতো নয় তবে পিআর প্লটটি আরওসি সম্পর্কিত তবে একই নয়। সূত্র: স্ট্যাটস.স্ট্যাকেক্সেঞ্জার্ভিউ / সেকশনস

— প্রশ্নগুলি

59

সত্যিই দুর্দান্ত প্রশ্ন এবং একটি যা আমি দেখতে পেয়েছি যে বেশিরভাগ মানুষ সত্যিকার অর্থেই স্বজ্ঞাত স্তরে বুঝতে পারে না। AUCবিভিন্ন কারণে বিভিন্ন কারণে বাইনারি শ্রেণিবদ্ধকরণের জন্য প্রায়শই যথার্থতার চেয়ে বেশি পছন্দ হয়। প্রথমে যদিও আসুন ঠিক কী AUCতা নিয়ে কথা বলা যাক । সত্যিই, সর্বাধিক ব্যবহৃত কার্যকর কার্যকারিতা মেট্রিকগুলির একজন হওয়ার জন্য, ঠিক কীভাবে AUCকাজ করে তা নির্ধারণ করা অবাক করে দেওয়া অবসন্ন ।

AUCদাঁড়ায় Area Under the Curve, আপনি কোন বাঁক জিজ্ঞাসা? ঠিক আছে, যে ROCবক্ররেখা হবে। রিসিভার অপারেটিং চরিত্রগত বলতেROC বোঝায় যা আসলে কিছুটা স্বজ্ঞাত নয়। এর অন্তর্নিহিত লক্ষ্য হ'ল এমন পরিস্থিতিগুলি মোকাবেলা করা যেখানে আপনার খুব স্কিউল নমুনা বন্টন রয়েছে এবং আপনি কোনও একক শ্রেণীর সাথে বেশি মানা করতে চান না।AUC

একটি দুর্দান্ত উদাহরণ স্প্যাম সনাক্তকরণে। সাধারণত, স্প্যাম ডেটাসেটগুলি হ্যাম, বা স্প্যাম নয়-এর প্রতি শক্তিশালী পক্ষপাতযুক্ত। যদি আপনার ডেটা সেটটি 90% হ্যাম হয় তবে আপনি প্রতিটি একক ইমেল হ্যাম বলে এই কথাটি বলে খুব সুন্দর সুন্দর নির্ভুলতা পেতে পারেন, এটি সম্ভবত একটি আদর্শ যা শ্রেণিবদ্ধকে নির্দেশ করে। আসুন কয়েকটি মেট্রিক দিয়ে শুরু করি যা আমাদের জন্য কিছুটা বেশি কার্যকর, বিশেষত সত্য ধনাত্মক হার ( TPR) এবং মিথ্যা ধনাত্মক হার ( FPR):

আরওসি অক্ষ

এখন এই গ্রাফে, TPRবিশেষত সমস্ত ধনাত্মকগুলির জন্য সত্য ধনাত্মক অনুপাত, এবং FPRসমস্ত নেতিবাচক কাছে মিথ্যা ধনাত্মক অনুপাত। (মনে রাখবেন, এটি কেবল বাইনারি শ্রেণিবদ্ধকরণের জন্য।) এর মতো গ্রাফের উপর, এটি নির্ধারণ করা খুব সোজা হওয়া উচিত যে সমস্ত 0 বা সমস্ত 1 এর পূর্বাভাসের ফলস্বরূপ (0,0)এবং (1,1)যথাক্রমে পয়েন্টগুলি ঘটবে । আপনি যদি এই লাইনের মধ্য দিয়ে একটি রেখা আঁকেন তবে আপনি এরকম কিছু পাবেন:

ত্রিভুজ মত ধরণের

যা মূলত তির্যক রেখার মতো দেখাচ্ছে (এটি হ'ল) এবং কিছু সহজ জ্যামিতির দ্বারা আপনি দেখতে পাবেন যে এই AUCজাতীয় মডেলটি হবে 0.5(উচ্চতা এবং ভিত্তি উভয় 1)। একইভাবে, আপনি যদি 0 এবং 1 এর এলোমেলো ভাণ্ডার পূর্বাভাস করেন তবে আসুন 90% 1 এর কথা বলা যাক, আপনি পয়েন্টটি পেতে পারেন (0.9, 0.9)যা আবার সেই তির্যক লাইনের সাথে পড়ে falls

এখন আকর্ষণীয় অংশ আসে। আমরা যদি 0 এবং 1 এর পূর্বাভাস না দিই তবে কী হবে? তার পরিবর্তে, আমরা কী বলতে চাই যে, তাত্ত্বিকভাবে আমরা একটি কাটঅফ সেট করতে যাচ্ছিলাম যার উপরে প্রতিটি ফলাফল 1 ছিল এবং নীচে প্রতিটি ফলাফল 0 ছিল This এর অর্থ হ'ল চূড়ান্ত স্থানে আপনি আসল পরিস্থিতি পাবেন যেখানে আপনি সমস্ত 0 এবং সমস্ত 1 রয়েছে (যথাক্রমে 0 এবং 1 এর কাট অফে), তবে মধ্যবর্তী রাষ্ট্রগুলির একটি সিরিজও 1x1রয়েছে যা আপনার গ্রাফের মধ্যে পড়ে ROC। অনুশীলনে আপনি এই জাতীয় কিছু পান: সৌজন্যে উইকিপিডিয়া

সুতরাং মূলত, আপনি যখন AUCঅত্যধিক নির্ভুলতা করছেন তখন আপনি যা অর্জন করছেন তা হ'ল এমন কিছু যা দৃ representative়ভাবে প্রতিনিধিদের মডেলগুলির জন্য যাওয়া লোকদের নিরুৎসাহিত করবে, তবে বৈষম্যমূলক নয়, কারণ এটি কেবলমাত্র এমন মডেলগুলির জন্য বেছে নেবে যা মিথ্যা ইতিবাচক এবং সত্য ইতিবাচক হারগুলি অর্জন করে যে এলোমেলো সুযোগের তুলনায় উল্লেখযোগ্যভাবে উপরে, যা সঠিকতার জন্য গ্যারান্টিযুক্ত নয়।

— indico
সূত্র

আপনি কী যুক্ত করতে পারেন কীভাবে এউসি একটি এফ 1-স্কোরের সাথে তুলনা করে?

— ড্যান

7

@ ড্যান- সর্বাধিক পার্থক্য হ'ল আপনাকে এইউসি-র সাথে সিদ্ধান্তের প্রান্ত স্থাপন করতে হবে না (এটি মূলত সম্ভাব্যতাটি স্প্যামকে নন-স্প্যামের উপরে স্থান দেওয়া হয়)। এফ 1-স্কোরের জন্য সিদ্ধান্তের প্রান্তিক প্রয়োজন। অবশ্যই, আপনি সর্বদা সিদ্ধান্তের প্রান্তকে একটি অপারেটিং প্যারামিটার এবং প্লট এফ 1-স্কোর হিসাবে সেট করতে পারেন।

— ডিএসিয়া

17

এউসি এবং নির্ভুলতা মোটামুটি আলাদা জিনিস। এউসি বাইনারি ক্লাসিফায়ারদের ক্ষেত্রে প্রযোজ্য যা অভ্যন্তরীণভাবে সিদ্ধান্তের প্রান্তিকের কিছু ধারণা রাখে। উদাহরণস্বরূপ লজিস্টিক রিগ্রেশনটি থ্রিজোল্ডের চেয়ে লজিস্টিক ফাংশনটি বৃহত্তর / ছোট, ডিফল্টরূপে সাধারণত 0.5 এর উপর নির্ভর করে ইতিবাচক / নেতিবাচক ফলাফল দেয়। আপনি যখন আপনার চৌম্বকটি চয়ন করেন, আপনার একটি শ্রেণিবদ্ধ থাকে। আপনি একটি চয়ন করতে হবে।

প্রান্তিকের প্রদত্ত পছন্দগুলির জন্য, আপনি নির্ভুলতা গণনা করতে পারেন, যা পুরো ডেটা সেটে সত্য ধনাত্মক এবং নেতিবাচক অনুপাত।

এটিসি পরিমাপ করে কীভাবে সত্য পজিটিভ রেট (রিকোল) এবং মিথ্যা পজিটিভ রেট বাণিজ্য বন্ধ, সুতরাং সেই অর্থে এটি ইতিমধ্যে অন্য কিছু পরিমাপ করছে। আরও গুরুত্বপূর্ণ বিষয়, এওসি কোনও প্রান্তিকের কাজ নয়। এটি শ্রেণিবদ্ধের একটি মূল্যায়ন কারণ থ্রেশহোল্ড সমস্ত সম্ভাব্য মানের চেয়ে আলাদা হয়। এটি এক অর্থে একটি বিস্তৃত মেট্রিক, শ্রেণিবদ্ধকারী যে অভ্যন্তরীণ মানের উত্পন্ন করে তার মানের পরীক্ষা করে এবং তারপরে একটি প্রান্তিকের সাথে তুলনা করে। এটি থ্রেশহোল্ডের একটি নির্দিষ্ট পছন্দের মানের পরীক্ষা করছে না।

এউসির আলাদা ব্যাখ্যা রয়েছে, এবং এটি হ'ল উদাহরণগুলির জন্য শ্রেণিবদ্ধের অভ্যন্তরীণ মান অনুসারে এলোমেলোভাবে বেছে নেওয়া ইতিবাচক উদাহরণটি এলোমেলোভাবে বেছে নেওয়া নেতিবাচক উদাহরণের উপরে স্থান পাওয়ার সম্ভাবনাও রয়েছে।

আপনার কাছে অ্যালগরিদম থাকলেও কেবল উদাহরণগুলির উপরে একটি র‌্যাঙ্কিং তৈরি হয় এমনকি এইউসি গণনাযোগ্য। আপনার কাছে যদি কেবলমাত্র একটি কালো বাক্সের শ্রেণিবদ্ধ থাকে এবং কোনও অভ্যন্তরীণ প্রান্তিক না থাকে তবে এইউসি গণনাযোগ্য নয়। এগুলি সাধারণত দুজনের মধ্যে কোনটি হাতে থাকা সমস্যার পক্ষে পাওয়া যায় তা নির্দেশ করে।

আমি মনে করি, এটিসি একটি আরও বিস্তৃত পরিমাপ, যদিও কম পরিস্থিতিতে এটি প্রযোজ্য। এটি নির্ভুলতার চেয়ে কঠোরভাবে ভাল নয়; এটা ভিন্ন. এটি সত্যিকারের ধনাত্মকতা, মিথ্যা নেতিবাচক ইত্যাদি বিষয়ে আপনার বেশি যত্নশীল কিনা তা নির্ভর করে part

এফ-পরিমাপটি এই অর্থে নির্ভুলতার মতো যে এটি কোনও শ্রেণিবদ্ধের কাজ এবং এর প্রান্তিক সেটিংয়ের কাজ। তবে এটি পরিস্কারতা বনাম রিক্যাল (সত্য ধনাত্মক হার) পরিমাপ করে, যা উপরের দুটির মতো নয়।

— শন ওউইন
সূত্র

অতএব, আমি যদি গ্রুপ পর্যায়ের সমান (যেমন কেস-নিয়ন্ত্রণ স্টাডি) পর্যবেক্ষণের একটি সেটের জন্য একটি বাইনারি ফলাফলের পূর্বাভাস দিতে চাই, তবে যথাযথতার তুলনায় আমি কী এওসি ব্যবহার করে কিছু অর্জন করতে পারি? বা এই ধরনের স্টাডিতে এউসির সাধারণ ব্যবহার কি কেবল সম্মেলনের কারণে?

— জো

শ্রেণিবদ্ধকারী কতটা নেতিবাচক উদাহরণের চেয়ে ইতিবাচক দৃষ্টিকোণকে উচ্চতর হিসাবে চিহ্নিত করে তা এওসি পরিমাপ করে, অন্যদিকে প্রদত্ত সিদ্ধান্তের দ্বার জন্য নির্ভুলতা সত্য বনাম মিথ্যা ধনাত্মকতা পরিমাপ করে। আমি মনে করি এটি নির্ভর করে আপনি যা মূল্যায়ন করতে চান তার সাথে কোনটি মেলে। এইউসিটি যুক্তিযুক্তভাবে চৌম্বক বাছাইয়ের তুলনায় শ্রেণিবদ্ধের আরও ব্যাপক পরিমাপ, তবে, শ্রেণিবদ্ধের যে কোনও প্রকৃত ব্যবহার শ্রেণিবদ্ধ করার জন্য একটি প্রান্তিক বাছাইয়ের উপর নির্ভর করবে

— শন ওওন

4

আপনি কীভাবে একটি পারফরম্যান্স পরিমাপ চয়ন করবেন তা আমি উল্লেখ করতে চাই। এর আগে আমি নির্ভুলতার এবং এউসির নির্দিষ্ট প্রশ্নটি উল্লেখ করব।

পূর্বে যেমন উত্তর দেওয়া হয়েছে, ভারসাম্যকারী হিসাবে সংখ্যাগরিষ্ঠ রান ব্যবহার করে ভারসাম্যহীন ডেটাসেটের ফলে উচ্চ নির্ভুলতার দিকে পরিচালিত হবে যা এটিকে বিভ্রান্তিকর পরিমাপ হিসাবে তৈরি করবে। ভাল এবং খারাপের জন্য আত্মবিশ্বাসের দোরগোড়ায় ওউসি সমষ্টিগত। ভাল জন্য, আপনি সমস্ত আত্মবিশ্বাস স্তর জন্য একটি ওজন ফলাফল পেতে। খারাপটি হ'ল আপনি সাধারণত যে আত্মবিশ্বাসের স্তরটি ব্যবহার করেন সে সম্পর্কে আপনি সাধারণত যত্নশীল হন এবং বাকিগুলি অপ্রাসঙ্গিক।

যাইহোক, আমি একটি মডেল জন্য একটি উপযুক্ত পারফরম্যান্স পরিমাপ চয়ন সম্পর্কে মন্তব্য করতে চাই। আপনি একটি মডেল এর লক্ষ্য দ্বারা তুলনা করা উচিত। কোনও মডেলের লক্ষ্য কোনও প্রশ্ন ওএস মেশিন লার্নিং বা পরিসংখ্যান নয়, এটি ব্যবসায়ের ডোমেন এবং এর প্রয়োজনীয়তার বিষয়ে প্রশ্ন।

আপনি যদি সোনার জন্য খনন করে থাকেন (এমন একটি দৃশ্যে যেখানে সত্যিকারের ইতিবাচক থেকে আপনার প্রচুর উপকার হয়, কোনও মিথ্যা পজিটিভের খুব বেশি দাম হয় না) তবে পুনরুদ্ধার করা ভাল ব্যবস্থা।

আপনি যদি কোনও জটিল চিকিৎসা পদ্ধতি লোকের উপর সঞ্চালন করবেন কিনা তা স্থির করার চেষ্টা করছেন (মিথ্যা পজিটিভের উচ্চ মূল্য, মিথ্যা নেতিবাচক আশা যে কম দাম), যথার্থতা হ'ল আপনার ব্যবহার করা উচিত।

আপনি ব্যবহার করতে পারেন প্রচুর ব্যবস্থা আছে। আপনি এগুলি বিভিন্ন উপায়ে সংযুক্ত করতে পারেন।

তবে সর্বজনীন "সেরা" পরিমাপ নেই। আপনার প্রয়োজনের জন্য সর্বোত্তম মডেল রয়েছে, এটি সর্বাধিকীকরণ করা আপনার সুবিধাটি সর্বাধিক বাড়িয়ে তুলবে।

— ডাল
সূত্র