নির্ভুলতা-পুনর্বিবেচনা বক্ররেখার জন্য ভাল এউসি কী?


11

যেহেতু আমার খুব ভারসাম্যহীন ডেটাসেট রয়েছে (9% ইতিবাচক ফলাফল), তাই আমি সিদ্ধান্ত নিয়েছি যে একটি স্পষ্টতা-রিক্যাল রেখাঙ্কনটি কোনও আরওসি বক্ররের চেয়ে বেশি উপযুক্ত। আমি পিআর বক্ররেখা (.49, যদি আপনি আগ্রহী হন) এর অধীনে ক্ষেত্রের আনুষাঙ্গিক সংক্ষিপ্তসার পরিমাপটি পেয়েছি তবে কীভাবে এটি ব্যাখ্যা করবেন তা সম্পর্কে আমি নিশ্চিত নই। আমি শুনেছি .8 বা তারপরে আরওসি-র জন্য ভাল এউসি কী, তবে সাধারণ কাটফসগুলি কি এউসির কাছে যথার্থ-প্রত্যাহার বক্ররেখার জন্য সমান হবে?

উত্তর:


12

নেই কোন ম্যাজিক কাটা পারেন AUC-Roc বা AUC-জনসংযোগ জন্য। উচ্চতর স্পষ্টতই ভাল, তবে এটি সম্পূর্ণ প্রয়োগ নির্ভর।

উদাহরণস্বরূপ, আপনি যদি সাফল্যের সাথে 0.8 এর এউসির সাথে লাভজনক বিনিয়োগগুলি সনাক্ত করতে পারেন বা সেই বিষয়টির জন্য সুযোগ থেকে পৃথকযোগ্য কোনও জিনিস আমি খুব মুগ্ধ হব এবং আপনি খুব ধনী হবেন। অন্যদিকে, 0.95 এর একটি এউসি সহ হস্তাক্ষর অঙ্কগুলি শ্রেণিবদ্ধকরণ এখনও শিল্পের বর্তমান অবস্থার তুলনায় যথেষ্ট।

তদ্ব্যতীত, সেরা সম্ভাব্য এউসি-আরওসি [0,1] এ থাকার গ্যারান্টিযুক্ত হলেও, এটি যথার্থ-পুনর্বিবেচনা বক্ররেখাগুলির জন্য সত্য নয় কারণ শ্রেণিবণ্টনগুলি কীভাবে ত্রুটিযুক্ত তার উপর নির্ভর করে পিআর স্পেসের "অপ্রজেয়" অঞ্চল থাকতে পারে। ( বিশদ জন্য বয়ড এট আল (2012) এই পেপার দেখুন )।


আমি ভেবেছিলাম সেখানে আমরা AUC এর অংশগুলিও অ্যাক্সেসযোগ্য। তবে ভুল হতে পারে।
চার্লস

4
আমি যে কাগজটি লিঙ্ক করেছি তাতে "একটি সম্পর্কিত, তবে পূর্বে অপরিচিত, দুটি ধরণের কার্ভের মধ্যে পার্থক্য হ'ল আরওসি স্পেসের যে কোনও বিন্দু অর্জনযোগ্য, পিআর স্পেসের প্রতিটি পয়েন্ট অর্জনযোগ্য নয় v" পৃষ্ঠার শীর্ষে ২. আমি মনে করি এটি কারণ আপনার সংগ্রহের সমস্ত ডকুমেন্ট পি / আর এর জন্য র‌্যাঙ্ক করা আবশ্যক, তাই এমনকি সবচেয়ে হতাশাবাদী সিস্টেমটি শেষ পর্যন্ত কোনও প্রাসঙ্গিক আইটেমটি পুনরুদ্ধার করবে। আরওসি-র পক্ষে, আপনি সমস্ত ইতিবাচক উদাহরণগুলি "-" এবং সমস্ত নেতিবাচক উদাহরণগুলি "+" বলতে পারেন, যা আপনাকে 100% মিথ্যা ধনাত্মক / 100% মিথ্যা নেতিবাচক হার দেয়।
ম্যাট ক্রাউস

ধন্যবাদ! মন্তব্য করার আগে আমার কাগজের দিকে নজর দেওয়া উচিত ছিল।
চার্লস

আমি সম্মত যে কোনও ম্যাজিক নম্বর নেই। যাইহোক, এটি বোঝার নিশ্চয়ই মূল্য আছে যে একটি 0.95 এউসি-আরওসি, উদাহরণস্বরূপ, এর অর্থ হল যে আপনি মূলত সমস্যাটি সমাধান করেছেন এবং খুব খুব ভাল শ্রেণিবদ্ধ রয়েছে। লাভজনক বিনিয়োগগুলি সন্ধানের জন্য যেখানে 0.6 এর একটি এউসি হতে পারে, কঠোরভাবে বলতে গেলে, এলোমেলো চেয়ে ভাল, তবে এর চেয়ে বেশি ভাল নয়। এটি বলেছিল, যেমনটি আপনি উল্লেখ করেছেন, এটি সম্ভবত সুযোগ থেকে পৃথকযোগ্য হবে এবং এটি আপনাকে একটি দুর্দান্ত কৌশল অর্জন করতে পারে।
শিরি

0

.49 দুর্দান্ত নয়, তবে এর ব্যাখ্যাটি আরওসি এউসি থেকে আলাদা। আরওসি এউসি-র জন্য, আপনি যদি লজিস্টিক রিগ্রেশন মডেল ব্যবহার করে একটি .49 পেয়ে থাকেন তবে আমি বলব যে আপনি এলোমেলো চেয়ে ভাল কিছু করছেন না। .49 পিআর এউসির জন্য তবে এটি খুব খারাপ নাও হতে পারে। আমি স্বতন্ত্র নির্ভুলতার দিকে তাকিয়ে বিবেচনা করব এবং সম্ভবত এক বা অন্যটি যা আপনার পিআর এউসি চালিয়ে যাচ্ছে। প্রত্যাহার আপনাকে বলবে যে 9% ইতিবাচক শ্রেণীর মধ্যে আপনি আসলে সঠিক অনুমান করছেন। যথার্থতা আপনাকে বলবে যে আপনি কতজন ইতিবাচক অনুমান করেছিলেন যা তা ছিল না। (মিথ্যা ইতিবাচক). 50% রিকালটি খারাপ হবে যার অর্থ আপনি আপনার ভারসাম্যহীন অনেক শ্রেণীর অনুমান করছেন না, তবে সম্ভবত 50% নির্ভুলতা খারাপ হবে না। আপনার পরিস্থিতির উপর নির্ভর করে।


0

একটি এলোমেলো অনুমানকারী আপনার ক্ষেত্রে 0.09 এর একটি PR-AUC থাকতে পারে (9% ইতিবাচক ফলাফল), সুতরাং আপনার 0.49 অবশ্যই একটি যথেষ্ট বৃদ্ধি।

এটি যদি ভাল হয় তবে অন্যান্য অ্যালগরিদমের সাথে তুলনা করে কেবল মূল্যায়ন করা যেতে পারে, তবে আপনি যে পদ্ধতিটি / ডেটা ব্যবহার করেছেন সে সম্পর্কে আপনি বিশদ দেননি।

অতিরিক্তভাবে, আপনি আপনার পিআর-কার্ভের আকারটি মূল্যায়ন করতে চাইতে পারেন। একটি আদর্শ পিআর-কার্ভটি শীর্ষ বাম কোণে অনুভূমিকভাবে উপরের কোণে এবং সোজা নীচে নীচে কোণে চলে যায়, যার ফলস্বরূপ পিআর-এউসি 1 হয়। কিছু অ্যাপ্লিকেশনগুলিতে পিআর-কার্ভটি দ্রুত শুরুতে শক্তিশালী স্পাইক দেখায় আবার "এলোমেলো অনুমানের রেখা" (আপনার ক্ষেত্রে 0.09 যথার্থে অনুভূমিক রেখা) এর কাছাকাছি নামান drop এটি "শক্তিশালী" ইতিবাচক ফলাফলগুলির একটি ভাল সনাক্তকরণের ইঙ্গিত দিবে, তবে কম স্বচ্ছ প্রার্থীদের উপর খারাপ অভিনয়।

আপনি যদি আপনার অ্যালগরিদমের কাটফুল প্যারামিটারের জন্য একটি ভাল প্রান্তিক সন্ধান করতে চান, আপনি নীচের কোণার নিকটতম PR- বক্ররেখার বিন্দুটি বিবেচনা করতে পারেন। বা আরও ভাল, যদি সম্ভব হয় তবে ক্রস বৈধতা বিবেচনা করুন। আপনি নির্ভুলতা অর্জন করতে পারেন এবং একটি নির্দিষ্ট কাটঅফ প্যারামিটারের জন্য মানগুলি স্মরণ করতে পারেন যা আপনার আবেদনের জন্য পিআর-এউসির মানের চেয়ে আকর্ষণীয়। বিভিন্ন অ্যালগরিদমের সাথে তুলনা করার সময় এইউসিগুলি সবচেয়ে আকর্ষণীয়।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.