মিথ্যা এবং সত্য ইতিবাচক হারগুলি দেখানো এই চার্টটির নাম কী এবং এটি কীভাবে উত্পন্ন হয়?


22

নীচের চিত্রটিতে মিথ্যা ইতিবাচক হারগুলি বনাম সত্য ধনাত্মক হারগুলির একটি ধারাবাহিক বক্ররেখা দেখায়:

এখানে চিত্র বর্ণনা লিখুন

তবে, আমি অবিলম্বে যা পাই না তা হ'ল এই হারগুলি কীভাবে গণনা করা হচ্ছে। যদি কোনও ডেটাসেটে কোনও পদ্ধতি প্রয়োগ করা হয়, তবে এটিতে একটি নির্দিষ্ট এফপি হার এবং একটি নির্দিষ্ট এফএন হার থাকে। তার মানে কি এই নয় যে প্রতিটি পদ্ধতির একটি বক্ররের পরিবর্তে একটি বিন্দু থাকা উচিত? অবশ্যই একাধিক বিভিন্ন পয়েন্ট উত্পাদন করে একটি পদ্ধতি কনফিগার করার একাধিক উপায় রয়েছে তবে এটি কীভাবে হারের ধারাবাহিকতা রয়েছে বা কীভাবে এটি উত্পন্ন হয় তা আমার কাছে পরিষ্কার নয়।


2
আমি কোথা থেকে এসেছি তা সম্পর্কে আগ্রহী। এটি দাবি করে দেখা যাচ্ছে যে মুখগুলি সনাক্ত / সনাক্তকরণে বাইদু 100% নিখুঁত (এবং লোকের চেয়ে ভাল)। হয় বা এটি বাইদুর ফলাফলগুলিকে মানব শ্রেণিবিন্যাসের পরিবর্তে স্থল সত্য হিসাবে ব্যবহার করে যা সত্যই অদ্ভুত।
মনিকার মনিকা


ঠিক আছে, তারা বিভিন্ন পরীক্ষার ফলাফল মিশ্রিত করেছে এবং তাদের উত্সের ডেটাটিকে ভুলভাবে গোল করেছে। বাইদু 0.9977 ± 0.0006 হওয়া উচিত
মনিকার

2
ঘটনাচক্রে, আপনি মিস করেছেন যে আপনার উত্সটির উত্তর ছিল: "আরওসি বক্ররেখা পড়ার বিষয়ে আরও তথ্যের জন্য উইকিপিডিয়া দেখুন" "
মনিকাকে

2
@ ওরেঞ্জডগ 0.9977 ± 0.0006 এলএফডাব্লু ফলাফল পৃষ্ঠা থেকে বাইদুর যথার্থতা, এটিউসি নয়। এটি বিভ্রান্তিকর কারণ এলএফডাব্লু ফলাফলের পৃষ্ঠায় এটির কলামটির শিরোনাম নেই। যাইহোক, তাদের ভি 4 আরক্সিভ পেপার এই সংখ্যাটিকে যথার্থতা হিসাবে উপস্থাপন করে। আমি তাদের বক্ররেখা উপর AUC নির্ণিত আছে এই ফাংশন মধ্যে । 1.000 এর এউসি বিভ্রান্তিকর হলেও, আমি বিশ্বাস করি যে আমার কৌশলটি বৈধ।
ব্র্যান্ডন আমোস

উত্তর:


27

প্লটটি আরওসি বক্ররেখা এবং (ফলস পজিটিভ রেট, ট্রু পজিটিভ রেট) পয়েন্টগুলি বিভিন্ন প্রান্তিকের জন্য গণনা করা হয়। ধরে নিচ্ছি আপনার অভিন্ন ইউটিলিটি ফাংশন রয়েছে, সর্বোত্তম থ্রোসোল্ড মানটি নিকটতম পয়েন্টের জন্য (0, 1)।


সুতরাং এই জাতীয় বক্ররেখাটি কী পদ্ধতিতে একটি আরামদায়ক থ্রেশহোল্ড প্যারামিটারের প্রয়োজন?
অ্যাকোরেন

2
হ্যাঁ, তবে প্রান্তিকতা অনেকগুলি বিষয় হতে পারে যেমন কোনও প্রশিক্ষিত মডেলের পরীক্ষার ডেটা দেওয়া বা কোনও এসভিএমের জন্য পৃথক পৃথক হাইপারপ্লেনের দূরত্ব দেওয়া লগের সম্ভাবনা।
মর্টেন

1
উদাহরণস্বরূপ, তির্যক রেখাটি এলোমেলো অনুমানের অ্যালগরিদম; প্যারামিটারটি "আমরা কী সম্ভাবনার সাথে সত্যের অনুমান করব?"
মনিকার মনিকা

21

আরওসি বক্ররেখা উত্পন্ন করতে (= রিসিভার অপারেটিং বৈশিষ্ট্যযুক্ত কার্ভগুলি):

ধরুন আমাদের কাছে লজিস্টিক রিগ্রেশন এর মতো একটি সম্ভাব্য, বাইনারি শ্রেণিবদ্ধ রয়েছে। আরওসি বক্ররেখা উপস্থাপনের আগে কনফিউশন ম্যাট্রিক্সের ধারণাটি বুঝতে হবে। আমরা যখন বাইনারি ভবিষ্যদ্বাণী করি তখন 4 ধরণের ত্রুটি হতে পারে:

  • আমরা 0 পূর্বাভাস দিই যখন আমাদের ক্লাসটি হওয়া উচিত আসলে 0: এটিকে সত্য নেতিবাচক বলা হয় , অর্থাৎ আমরা সঠিকভাবে অনুমান করি যে শ্রেণিটি নেতিবাচক (0)। উদাহরণস্বরূপ, কোনও অ্যান্টিভাইরাস ভাইরাস হিসাবে কোনও ক্ষতিকারক ফাইল সনাক্ত করতে পারেনি।
  • আমরা 0 পূর্বাভাস দিই যখন আমাদের ক্লাসটি হওয়া উচিত আসলে 1: একে ফালস নেগেটিভ বলা হয় , অর্থাৎ আমরা ভুলভাবে অনুমান করি যে শ্রেণিটি নেতিবাচক (0)। উদাহরণস্বরূপ, একটি অ্যান্টিভাইরাস কোনও ভাইরাস সনাক্ত করতে ব্যর্থ হয়েছিল।
  • আমরা 1 টি পূর্বাভাস দিয়েছিলাম যখন আমাদের ক্লাসটি হওয়া উচিত আসলে 0: এটিকে একটি ফলস পজিটিভ বলা হয় , অর্থাৎ আমরা ভুলভাবে অনুমান করি যে শ্রেণিটি ইতিবাচক (1)। উদাহরণস্বরূপ, একটি অ্যান্টিভাইরাস কোনও ক্ষতিকারক ফাইলটিকে ভাইরাস হিসাবে বিবেচনা করে।
  • আমরা পূর্বাভাস 1 যখন আমাদের ক্লাস থাকা উচিত আসলে 1: একে সত্য পজিটিভ বলা হয় , অর্থাৎ আমরা সঠিকভাবে অনুমান করি যে শ্রেণিটি ইতিবাচক (1)। উদাহরণস্বরূপ, একটি অ্যান্টিভাইরাস যথাযথভাবে একটি ভাইরাস সনাক্ত করেছে।

বিভ্রান্তির ম্যাট্রিক্স পেতে, আমরা মডেল দ্বারা তৈরি সমস্ত পূর্বাভাস পেয়েছি, এবং এই 4 ধরণের ত্রুটিগুলির মধ্যে প্রতিটি কতবার ঘটে তা গণনা করি:

এখানে চিত্র বর্ণনা লিখুন

একটি বিভ্রান্তির ম্যাট্রিক্সের এই উদাহরণে, শ্রেণিবদ্ধ করা হয়েছে এমন 50 টি ডাটা পয়েন্টগুলির মধ্যে 45 টি সঠিকভাবে শ্রেণিবদ্ধ করা হয়েছে এবং 5 টি ভুল শংসায়িত।

যেহেতু দুটি ভিন্ন মডেলের তুলনা করা প্রায়শই একাধিকটির চেয়ে একক মেট্রিক পাওয়া আরও সুবিধাজনক, তাই আমরা বিভ্রান্তির ম্যাট্রিক্স থেকে দুটি মেট্রিক গণনা করি, যা আমরা পরে একত্রিত করব:

  • সত্য পজিটিভ রেট ( টিপিআর ), ওরফে। সংবেদনশীলতা, হিট রেট এবং স্মরণ , যা হিসাবে সংজ্ঞায়িত করা হয়েছেটিপিটিপি+ +এফএন । স্বজ্ঞাতভাবে এই মেট্রিকটি ইতিবাচক ডেটা পয়েন্টগুলির অনুপাতের সাথে মিলে যায় যা সঠিকভাবে ধনাত্মক হিসাবে বিবেচিত হয়, সমস্ত ইতিবাচক ডেটা পয়েন্টের সাথে সম্মান করে। অন্য কথায়, উচ্চতর টিপিআর, আমরা যত কম পজিটিভ ডেটা পয়েন্ট মিস করব।
  • মিথ্যা পজিটিভ রেট ( এফপিআর ), ওরফে। ফল-আউট , যা হিসাবে সংজ্ঞায়িত করা হয়এফপিএফপি+ +টিএন

0.00;0.01,0.02,...,1.00

এখানে চিত্র বর্ণনা লিখুন

এই চিত্রটিতে, নীল অঞ্চলটি রিসিভার অপারেটিং চরিত্রগত (এআরওসি) এর বক্ররেখার সাথে থাকা অঞ্চলের সাথে মিলে যায়। তির্যকরে ড্যাশড লাইনটি আমরা একটি এলোমেলো পূর্বাভাসীর আরওসি বক্ররেখা উপস্থাপন করি: এর 0.5 টি এরওআরওসি রয়েছে। মডেলটি কার্যকর কিনা তা দেখার জন্য এলোমেলো ভবিষ্যদ্বাণী সাধারণত বেসলাইন হিসাবে ব্যবহৃত হয়।

যদি আপনি কিছু প্রথম হাতের অভিজ্ঞতা পেতে চান:


9

মর্টেনের উত্তর শিরোনামটিতে প্রশ্নটিকে সঠিকভাবে সম্বোধন করে - চিত্রটি আসলে একটি আরওসি বক্ররেখা। এটি তাদের যথাযথ ধনাত্মক হারের বিপরীতে মিথ্যা পজিটিভ রেটের (এফপিআর) ক্রম পরিকল্পনা করে উত্পাদিত হয়।

তবে, আপনি আপনার পোস্টের শুরুর দিকে যে প্রশ্নটি জিজ্ঞাসা করেছেন সেটির জবাব দিতে চাই।

যদি কোনও ডেটাসেটে কোনও পদ্ধতি প্রয়োগ করা হয়, তবে এটিতে একটি নির্দিষ্ট এফপি হার এবং একটি নির্দিষ্ট এফএন হার থাকে। তার মানে কি এই নয় যে প্রতিটি পদ্ধতির একটি বক্ররের পরিবর্তে একটি বিন্দু থাকা উচিত? অবশ্যই একাধিক বিভিন্ন পয়েন্ট উত্পাদন করে একটি পদ্ধতি কনফিগার করার একাধিক উপায় রয়েছে তবে এটি কীভাবে হারের ধারাবাহিকতা রয়েছে বা কীভাবে এটি উত্পন্ন হয় তা আমার কাছে পরিষ্কার নয়।

অনেক মেশিন লার্নিং পদ্ধতিতে সামঞ্জস্যযোগ্য পরামিতি থাকে। উদাহরণস্বরূপ, একটি লজিস্টিক রিগ্রেশন আউটপুট ক্লাসের সদস্যতার সম্ভাব্য সম্ভাবনা। এক শ্রেণির কিছু প্রান্তিকের উপরে পূর্বাভাসযুক্ত সম্ভাব্যতা সহ সমস্ত পয়েন্টকে শ্রেণিবদ্ধ করার সিদ্ধান্তের নিয়ম, এবং বাকী অন্যটিতে, পৃথক টিপিআর এবং এফপিআর পরিসংখ্যান সহ প্রতিটি শ্রেণিবদ্ধের নমনীয় পরিসর তৈরি করতে পারে। এলোমেলো বনের ক্ষেত্রেও একই কাজ করা যেতে পারে, যেখানে কেউ গাছের ভোট, বা এসভিএম বিবেচনা করছেন, যেখানে আপনি হাইপারপ্লেন থেকে স্বাক্ষরিত দূরত্ব বিবেচনা করছেন।

যে ক্ষেত্রে আপনি নমুনা ছাড়াই পারফরম্যান্সের অনুমানের জন্য ক্রস-বৈধকরণ করছেন, সাধারণ অনুশীলনটি হ'ল টিপিআর এবং এফপিআরের ক্রম তৈরি করতে ভবিষ্যদ্বাণী মানগুলি (ভোট, সম্ভাব্যতা, স্বাক্ষরিত দূরত্ব) ব্যবহার করা। এটি সাধারণত একটি ধাপের ফাংশনের মতো দেখায়, কারণ সাধারণত প্রতি অনুমানিত মানটিতে টিপি থেকে এফএন বা এফপি থেকে এফএন এ সরিয়ে কেবলমাত্র একটি পয়েন্ট থাকে (যেমন সমস্ত নমুনার পূর্বাভাসিত মানগুলি অনন্য)। এই ক্ষেত্রে, যখন টিপিআর এবং এফপিআর গণনা করার জন্য অপশনগুলির ধারাবাহিকতা রয়েছে , টিপিআর এবং এফপিআর ফাংশনগুলি ধারাবাহিক হবে না কারণ কেবলমাত্র চূড়ান্তভাবে অনেকগুলি বহির্মুখী নমুনা রয়েছে, সুতরাং ফলিত বক্ররেখার ধাপের মতো উপস্থিতি থাকবে ।


0

উইকিপিডিয়া থেকে:

দ্বিতীয় বিশ্বযুদ্ধের সময় যুদ্ধক্ষেত্রের শত্রুদের সনাক্তকরণের জন্য আরওসি বক্ররেখাটি প্রথম বৈদ্যুতিন প্রকৌশলী এবং রাডার ইঞ্জিনিয়ারদের দ্বারা বিকাশিত হয়েছিল এবং শিগগিরই উদ্দীপনা সনাক্তকরণের জন্য সনাক্তকরণের জন্য অ্যাকাউন্টে মনোবিজ্ঞানের সাথে পরিচয় করিয়ে দেওয়া হয়েছিল। তখন থেকে আরওসি বিশ্লেষণ বহু দশক ধরে চিকিত্সা, রেডিওলজি, বায়োমেট্রিক্স এবং অন্যান্য ক্ষেত্রে ব্যবহৃত হয় এবং মেশিন লার্নিং এবং ডেটা মাইনিং গবেষণায় ক্রমবর্ধমানভাবে ব্যবহৃত হয়।

আরওসি অপেক্ষাকৃত অপারেটিং বৈশিষ্ট্যযুক্ত কার্ভ হিসাবেও পরিচিত, কারণ এটি দুটি অপারেটিং বৈশিষ্ট্যের (টিপিআর এবং এফপিআর) তুলনা হ'ল মানদণ্ড পরিবর্তিত হয়।

বাইনারি ক্লাসিফায়ার পরিচালনা করার জন্য আপনার অবশ্যই দুটি অক্ষকে ব্যয় হিসাবে নিতে হবে। আদর্শভাবে আপনি যতটা সম্ভব যথাযথ সত্য পজিটিভ হারের চেয়ে কম ভুয়া পজিটিভ রেট নিতে চান। এটি হ'ল বাইনারি শ্রেণিবদ্ধকারী যতটা সম্ভব সত্যিকারের ধনাত্মক হিসাবে কয়েকটি মিথ্যা ধনাত্মক কল করতে চান।

এটিকে দৃ concrete়তর করে এমন কোনও শ্রেণিবদ্ধের কল্পনা করুন যা কিছু বায়োমারকারের পরিমাণ পরিমাপ করে নির্দিষ্ট রোগের উপস্থিতি রয়েছে কিনা তা সনাক্ত করতে পারে। কল্পনা করুন যে বায়োমারকারের মান 0 (অনুপস্থিত) থেকে 1 (স্যাচুরেটেড) এর মধ্যে রয়েছে। কোন স্তরের রোগ সনাক্তকরণ সর্বাধিক? এটি এমন পরিস্থিতিতে হতে পারে যে কোনও স্তরের উপরে বায়োমেকার কিছু লোককে এই রোগটি বলে শ্রেণিবদ্ধ করবে তবে তাদের মধ্যে এই রোগ নেই। এগুলি মিথ্যা ইতিবাচক। তারপরে অবশ্যই তাদের মধ্যে এই রোগটি হওয়ার পরে শ্রেণীবদ্ধ করা হবে যখন তারা সত্যই এই রোগটি করবে। এগুলিই সত্য ধনাত্মক।

আরওসি সমস্ত সম্ভাব্য প্রান্তিক মান বিবেচনায় নিয়ে মিথ্যা ধনাত্মক অনুপাতের বিপরীতে সমস্ত ধনাত্মক সত্যের ধনাত্মকতার অনুপাতকে মূল্যায়ন করে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.