যথার্থ ও যোগফলের যোগফল কেন একটি উপযুক্ত পরিমাপ নয়?


12

ব্যাখ্যা করতে কেন সবচেয়ে ভালো উপায় কি Precision+Recall হয় না এফ 1 তুলনায়, একটি ভাল পরিমাপ বলে?


এর অর্থ কী? আপনি কিভাবে এটি ব্যাখ্যা করবেন? এটি আসলে আপনাকে কী বলবে?
ম্যাথু ড্রুরি

1
আপনি কী চান তা পরিষ্কার করার জন্য আপনার "যথার্থ + পুনরুদ্ধার" এর পরিবর্তে "যথার্থতা এবং পুনর্বিচ্ছেদের সমষ্টি" যোগ করে শিরোনামটি পরিবর্তন করা উচিত।
g3o2

@ g3o2 আমরা এখানে ব্যাকরণ কথা বলছি, বা আমি আরও বড় কিছু মিস করছি?
ম্যাট

সত্যিই নয়, কেবল এটি খেয়াল করে যে এটি যথার্থতা এবং পুনর্বিবেচনাও পড়তে পারে বিশেষত যখন কেবল শিরোনামটি পড়ে।
g3o2

উত্তর:


18

Precision+Recall

স্মরণ করুন যে নির্ভুলতা এবং প্রত্যাহার হিসাবে সংজ্ঞায়িত করা হয়:

Precision=True PositivePredicted Positive
Recall=True PositiveActual Positive

True Positive(Predicted Positive+Actual Positive)Predicted Positive×Actual Positive

তাদের একসাথে যুক্ত করতে ফিরে যেতে দিন, এবং একটি তাত্পর্য তৈরি করুন: তাদের গুণ করুন12[01]

12×(True PositivePredicted Positive+True PositiveActual Positive)

সুতরাং, আমাদের দুটি পরিমাণ রয়েছে, যার একই অংক রয়েছে, তবে বিভিন্ন ডিনোমিনেটর রয়েছে এবং আমরা সেগুলির গড় নিতে চাই। আমরা কি করি? আচ্ছা আমরা এগুলিকে উল্টাতে পারি, তাদের বিপরীতমুখী নিতে পারি। তারপরে আপনি তাদের একসাথে যুক্ত করতে পারেন could সুতরাং তারা "ডান দিকে", আপনি আবার বিপরীতটি নেন।

উল্টানোর এই প্রক্রিয়া এবং তারপরে উল্টানো আবার "নিয়মিত" গড়কে সুরেলা গড়তে পরিণত করে। এটা তোলে শুধু তাই যে স্পষ্টতা এবং রিকল সমন্বয়পূর্ণ গড় হল এফ 1-পরিসংখ্যাত। হারগুলি নিয়ে কাজ করার সময় সাধারণভাবে গাণিতিক গড়ের পরিবর্তে সুরেলা মানে ব্যবহৃত হয়, যেমনটি আমরা এখানে করছি doing

শেষ পর্যন্ত, এফ 1-স্ট্যাটিস্টিক হ'ল যথার্থতা এবং পুনর্বিবেচনার গড় এবং আপনি এটি ব্যবহার করেন কারণ আপনি মডেলটির পারফরম্যান্স মূল্যায়নের জন্য কোনও বা অন্যটিকে বেছে নিতে চান না।


2
বীজগণিত গড় থেকে সুরেলাভাবে বিকাশের জন্য অনেক ধন্যবাদ! তবে যা সম্ভবত আমার সাথে খুব দৃly়তার সাথে বসে না, এটি হল সেই অংশ যেখানে আপনি "যা বিশেষভাবে কার্যকর নয়"। সেই শিরাতে আমি এখন অন্য দুটি উত্তরে নীচে মন্তব্য করেছি। যদি আপনি এটি আরও একধাপ এগিয়ে নিয়ে যান তবে উদাহরণস্বরূপ কল্পনা করুন আমি একই ডেটাসেটের উপর পরীক্ষিত শ্রেণিবদ্ধদের একটি গ্রুপের মধ্যে সেরা শ্রেণিবদ্ধকারী বাছাই করতে চাই।
ম্যাট

@ ম্যাট, কোনও সম্মিলিত পরিমাপ ব্যবহার করে আপনার মডেল পছন্দটি নির্দিষ্ট পয়েন্টে নিয়ে আসবে তবে এর বাইরে নয়। একই এফ 1 মানযুক্ত দুটি মডেল সম্পূর্ণরূপে প্রত্যাহার এবং যথার্থ মানগুলির বিপরীতে প্রদর্শিত হতে পারে। সুতরাং, এফ 1 একই হওয়ার জন্য, আপনাকে পুনর্বিবেচনা এবং যথার্থতার মধ্যে নির্বাচন করতে হবে।
g3o2

4

সংক্ষিপ্ত উত্তরটি হ'ল: আপনি দুটি শতাংশের যোগফলের নির্দিষ্ট অর্থ আশা করতে পারবেন না যার দুটি পৃথক ডিনোমিনেটর রয়েছে। সুতরাং, এফ 1, এফ 2 বা এফ 0.5 এর মতো গড় পরিমাপের পদ্ধতি গ্রহণ করা। পরেরটি কমপক্ষে শতাংশের সম্পত্তি ধরে রাখে। যদিও তাদের অর্থ কি?

পৃথক ব্যবস্থা হিসাবে যথার্থতা এবং পুনরুদ্ধারের সৌন্দর্য হ'ল তাদের ব্যাখ্যার সহজতরতা এবং এ বিষয়টি যে তারা সহজেই মডেলের ব্যবসায়িক লক্ষ্যগুলির সাথে মোকাবিলা করতে পারে। মডেল অনুসারে শ্রেণিবদ্ধ হওয়া মামলার মধ্যে শতাংশের যথার্থতা পরিমাপ করে । সমস্ত মামলার বাইরে মডেলের দ্বারা পাওয়া শতাংশের পরিমাণ পুনরায় প্রত্যাহার করুন । অনেক সমস্যার জন্য, আপনাকে যথার্থ বা পুনরুদ্ধারকে অপ্টিমাইজ করার মধ্যে বেছে নিতে হবে।true positivespositivetrue positivestrue

যে কোনও গড় পরিমাপ উপরের ব্যাখ্যাটি হারাতে থাকে এবং কোন মাপে আপনি সবচেয়ে বেশি পছন্দ করেন সেটিকে উত্সাহিত করে। এফ 1 এর অর্থ হয় আপনি জানেন না যে আপনি रिकল বা যথার্থ পছন্দ করেন, বা আপনি তাদের প্রত্যেকের সাথে সমান ওজন যুক্ত করেন। আপনি যদি স্মরণটিকে যথার্থের চেয়ে বেশি গুরুত্বপূর্ণ বলে মনে করেন, তবে আপনাকে গড় গণনা (যেমন F2) এবং এর বিপরীতে (যেমন F0.5) এও এটির জন্য একটি উচ্চতর ওজন বরাদ্দ করা উচিত।


3

দুটি যোগ করা একটি খারাপ পরিমাপ। আপনি যদি সমস্ত কিছুকে ইতিবাচক হিসাবে পতাকাঙ্কিত করেন তবে আপনি কমপক্ষে 1 এর একটি স্কোর পাবেন, যেহেতু এটি সংজ্ঞা অনুসারে 100% প্রত্যাহারযোগ্য। এবং আপনি তার উপরে একটি সামান্য নির্ভুলতা বাম্প পাবেন। এফ 1 এ ব্যবহৃত জ্যামিতিক গড় দুর্বল লিঙ্ককে জোর দেয় কারণ এটি গুণক; আপনাকে কমপক্ষে যথাযথ উভয়ই ঠিক করতে হবে এবং শালীন এফ 1 স্কোরটি স্মরণ করতে হবে।


প্রকৃতপক্ষে, এটি দুর্বল লিঙ্কের এই সঠিক জোর, যা আমি যখন অতিরিক্ত মাত্রায় পেয়েছি যখন প্রিসিশন এবং পুনরায় স্মরণ করা দুর্বলতার চেয়ে বুদ্ধিমান। যখন তারা উভয়ই তীক্ষ্ণ নয়, তখন আমি নিশ্চিত নই যে আমি কোনও মেট্রিকের যুক্ত হওয়া মূল্যটি তাদের মধ্যে সাদৃশ্যটির উপর জোর দিয়ে দেখছি, বা তাদের পার্থক্যের আকারের দ্বারা আলাদাভাবে শাস্তি দিতে চাই। এই সঠিক সম্পত্তিটি এখানে আমার মূল প্রশ্নটিকে অনুপ্রাণিত করেছে।
ম্যাট

আমার কাছে অতিরিক্ত কাজের মতো শোনাচ্ছে। আপনি যদি প্রত্যাহার শতাংশের এক পয়েন্টকে যথার্থতার চেয়ে এক হিসাবে মূল্য দেন তবে আমি অনুমান করি যে আপনার পরিমাপটি এটিই ব্যবহার করবে। তবে আমি আপনার ইমেজ করতে পারি না। আপনি পরিসীমা হ্রাস করলেও, পুনর্বিবেচনা সম্ভবত আধিপত্য বয়ে চলেছে। আপনি যথাযথতার সাথে আপেল থেকে আপেল হতে পারে এমন স্কেল করতে পারেন তবে এটি আবার আরও কাজ এবং ব্যাখ্যাটি আরও পরিষ্কার করে clear
বেন ওগোরেক

1
নিশ্চিত নয় কেন অনুমানের পুনর্বিবেচনার (?) আধিপত্য বজায় রাখা উচিত তবে যথার্থতার সাথে আপেল-আপেল হতে স্কেলিং পুনরুদ্ধারটি এখানে বা অন্য কোথাও একটি আকর্ষণীয় সম্পর্কিত আলোচনা হতে পারে - ডান দিকের একটি পয়েন্টারটি থাকতে পারে চমৎকার হতে পারে :) এবং অন্যথায় আবার ধন্যবাদ
ম্যাট

3

মারাত্মক অসম্পূর্ণ সম্ভাবনার ক্ষেত্রে F1 স্কোর বিশেষভাবে মূল্যবান।

নিম্নলিখিত উদাহরণটি বিবেচনা করুন: আমরা একটি বিরল তবে বিপজ্জনক অসুস্থতার জন্য পরীক্ষা করি। ধরা যাক যে ১,০০০.০০০ শহরে কেবল 100 জন সংক্রামিত are

টেস্ট এ এই সমস্ত 100 ধনাত্মক সনাক্ত করে। তবে এটিতে ৫০% মিথ্যা ইতিবাচক হারও রয়েছে: এটি ভুল করে অন্য 500.000 লোককে অসুস্থ হতে দেখায়।

এদিকে, পরীক্ষা বি সংক্রামিতদের 10% হারায়, তবে কেবল 1.000 মিথ্যা ধনাত্মক (0.1% মিথ্যা ইতিবাচক হার) দেয়

স্কোর গণনা করা যাক। পরীক্ষার জন্য, যথার্থ কার্যকরভাবে 0 হবে; পুনরুদ্ধার হুবহু 1 হবে। পরীক্ষার বি জন্য, যথার্থতা এখনও ছোট হবে, প্রায় 0.01। পুনর্বিবেচনা 0.9 এর সমান হবে।

যদি আমরা নির্লিপ্তভাবে সংখ্যার গাণিতিক গড়টি নিখুঁতভাবে গ্রহণ করি এবং পুনরায় স্মরণ করি, এটি পরীক্ষার A এর জন্য 1 (0.5) এবং বি বি পরীক্ষার জন্য 0.91 (0.455) দেবে, সুতরাং পরীক্ষা A সামান্য ভাল বলে মনে হবে।

তবে, আমরা যদি ব্যবহারিক দৃষ্টিকোণ থেকে দেখি তবে A পরীক্ষাটি মূল্যহীন: যদি কোনও ব্যক্তিকে ইতিবাচকভাবে পরীক্ষা করা হয় তবে তার সত্যিকারের অসুস্থ হওয়ার সম্ভাবনা 50.000 এর মধ্যে 1! টেস্ট বি এর আরও ব্যবহারিক তাত্পর্য রয়েছে: আপনি ১.১০০ লোককে হাসপাতালে নিয়ে যেতে পারেন এবং তাদের নিবিড়ভাবে পর্যবেক্ষণ করতে পারেন। এটি F1 স্কোর দ্বারা সঠিকভাবে প্রতিফলিত হয়েছে: পরীক্ষার A এর জন্য এটি 0.0002 এর কাছাকাছি হবে, পরীক্ষার বি: (0.01 * 0.9) / (0.01 + 0.9) = 0.0098, যা এখনও বরং দরিদ্র, তবে প্রায় 50 গুণ ভাল।

স্কোর মান এবং ব্যবহারিক তাত্পর্যগুলির মধ্যে এই ম্যাচটি এফ 1 স্কোরকে মূল্যবান করে তোলে।


ধন্যবাদ। হতে পারে আমি যথেষ্ট ক্ষেত্রে নিজেকে ডুবিয়েছি না, তবে এই বর্ণনাই কি বাস্তব জীবনের ডোমেইনে "ধনাত্মক "গুলিকে সম্পদ বরাদ্দ করার ব্যবহারিক সুবিধার উপর নির্ভর করে না যেখানে একটি ফলাফল সনাক্তকরণ (ইতিবাচক) লক্ষ্য? এটি সর্বদা ক্ষেত্রে হয় না, লক্ষ্যটি একটি ফলাফল সনাক্ত করে এটি হয়? কখনও কখনও আপনি কেবল এটি অ্যাপল বা জোড়া, এবং উভয় ধরণের ত্রুটির একই ব্যবহারিক বাস্তব-বিশ্বব্যাপী ব্যয় হয় তা জানতে চান।
ম্যাট

সর্বোপরি, আমি যা দেখতে ব্যর্থ হই তা হ'ল কীভাবে এই "আরও ভাল" সম্পত্তি থাকার ক্ষেত্রগুলি এমন ক্ষেত্রে স্কেল করে যেখানে নির্ভুলতা এবং পুনরুদ্ধারের মধ্যে (পরম) পার্থক্য কম প্যাথলজিকাল হয়। অন্তর্নিহিত অন্তর্নিহিত সেখানে থাকতে পারে, কিন্তু আমি এখনও সেখানে না ...
ম্যাট

1

সাধারণভাবে, জ্যামিতিক গড়কে সর্বাধিক করে তোলা মানগুলি একইরকম হওয়ার বিষয়ে জোর দেয়। উদাহরণস্বরূপ, দুটি মডেল নিন: প্রথমটির (যথার্থতা, পুনর্বিবেচনা) = (0.8, 0.8) এবং দ্বিতীয়টির (যথার্থতা, পুনর্বিবেচনা) = (0.6, 1.0) রয়েছে। বীজগণিত গড় ব্যবহার করে, উভয় মডেল সমতুল্য হবে। জ্যামিতিক গড় ব্যবহার করে, প্রথম মডেলটি আরও ভাল কারণ এটি পুনরুদ্ধারের জন্য নির্ভুলতার বাণিজ্য করে না।


1
অনেক ধন্যবাদ. তবে, ব্যবহারিক বিবেচনায়, আমি উদাহরণস্বরূপ (0.8, 0.8) এবং (0.7, 0.9) এর মধ্যে কোনও সর্বজনীনভাবে প্রযোজ্য পছন্দ দেখতে ব্যর্থ। সম্ভবত আপনি "রিলিজ ফর রিসিওন অফ ট্রেডিং" এর গভীরতর কিছুতে ইঙ্গিত করেছিলেন - যা আমি নিজেকে তুলছি না (এখনও)। আমার জন্য বীজগণিতভাবে দুই ধরণের ত্রুটি গড়, কেবলমাত্র কোনও সাধারণতার পক্ষপাতিত্ব ছাড়াই এগুলির সহজতম গড় দেয় gives উদাহরণস্বরূপ আমি দু'টি শ্রেণিবদ্ধকারী আমাকে কোনটি কম ত্রুটি দেয় তা নির্ধারণের জন্য যথার্থতা এবং পুনরুদ্ধারের সহজ সংমিশ্রণটি ব্যবহার করতে পারি।
ম্যাট

আমরা এটিকে চরম পর্যায়ে নিয়ে যেতে পারি। ধরা যাক আপনার একটি সিস্টেম রয়েছে যার একটি (নির্ভুলতা, প্রত্যাহার) = (0.6, 0.6) রয়েছে। এর অর্থ হ'ল যখন এটি "হ্যাঁ" বলবে তখন তার সঠিক সময়টি 60% হয় এবং এটি "হ্যাঁ" ইভেন্টগুলির 60% সঠিকভাবে ধারণ করে। এখন এটির সাথে একটি সিস্টেমের তুলনা করা যাক (0.3, 1) এর আরও ভাল বীজগণিতিক অর্থ রয়েছে তবে এটি কী করছে? এটি সমস্ত "হ্যাঁ" ইভেন্টগুলি ধরছে, তবে এটি "হ্যাঁ" ভুলভাবেও অনেক বলেছে । সেটা কি ভালো? এটা কি খারাপ? এটি নির্ভর করে আপনি কেন সিস্টেমটি তৈরি করছেন। আপনি "হ্যাঁ" পূর্বাভাস দেখলে আপনি কী পদক্ষেপ নেবেন? "হ্যাঁ" ইভেন্টটি হারিয়ে যাওয়ার পরিণতি কী?
রাউন্ডস্কোয়ার

1
এই কোনও পদক্ষেপের যথাযথ নির্ভুলতার স্কোরিং নিয়ম নয়
ফ্র্যাঙ্ক হ্যারেল

@ স্প্রেড স্পয়ার অনেক ধন্যবাদ, তবে অ-প্যাথলজিকাল ক্ষেত্রে - যেখানে উভয়ই 0 এবং 1 এর কাছাকাছি নয় - চূড়ান্ত পরিমাপে আমার সম্ভবত দুজনের মধ্যে মিলের জোর দেওয়ার সুবিধা দেখে আমার সাহায্যের প্রয়োজন হবে!
ম্যাট

@ ফ্র্যাঙ্কহরেল "ঘরে হাতি" দেখানোর জন্য ধন্যবাদ
ম্যাট
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.