আরওসি বক্ররেখার অধীনে অঞ্চল বা ভারসাম্যহীন ডেটার জন্য পিআর বক্ররেখার অধীনে অঞ্চল?


16

কোন পারফরম্যান্সের পরিমাপটি ব্যবহার করতে হবে সে সম্পর্কে আমার কিছু সন্দেহ আছে, আরওসি বক্ররেখার অধীনে অঞ্চল (টিপিআর এর ক্রিয়াকলাপ হিসাবে টিপিআর) বা নির্ভুলতা-পুনর্বিবেচনা বক্ররেখার অধীনে অঞ্চল (পুনরুদ্ধারের ফাংশন হিসাবে নির্ভুলতা)।

আমার ডেটা ভারসাম্যহীন, অর্থাৎ নেতিবাচক উদাহরণগুলির সংখ্যা ইতিবাচক উদাহরণগুলির চেয়ে অনেক বড়।

আমি ওয়েকার আউটপুট ভবিষ্যদ্বাণী ব্যবহার করছি, একটি নমুনা হ'ল:

inst#,actual,predicted,prediction
1,2:0,2:0,0.873
2,2:0,2:0,0.972
3,2:0,2:0,0.97
4,2:0,2:0,0.97
5,2:0,2:0,0.97
6,2:0,2:0,0.896
7,2:0,2:0,0.973

এবং আমি পিআরওসি এবং আরআরসিআর আর লাইব্রেরি ব্যবহার করছি।


আপনি এই কার্ভগুলির মধ্যে যে কোনওটি দিয়ে কী অর্জন করতে চান তা উল্লেখ করতে ভুলে গেছেন।
মার্ক ক্লেসেন

1
দ্রষ্টব্য: মনে হচ্ছে আপনি আরওসি বক্ররেখা (পুরো অপারেটিং পরিসরের উপরে টিপিআর এফপিআর এর ক্রিয়া হিসাবে) এবং পিআর বক্ররেখা (পুরো অপারেটিং পরিসীমাটির তুলনায় যথার্থতা বনাম প্রত্যাহার) চয়ন করতে চান। " এউসি-আরওসি অফ স্পষ্টতা এবং পুনর্বিবেচনা " এর মতো পরিভাষাটি খুব বিভ্রান্তিমূলক, তাই আমি এটি সম্পাদনা করেছি। আমি যদি ভুল বুঝি তবে তা ফিরিয়ে দিন।
মার্ক ক্লেসেন

উত্তর:


27

প্রশ্নটি বেশ অস্পষ্ট তাই আমি ধরে নিচ্ছি যে আপনি বিভিন্ন মডেলের তুলনা করার জন্য একটি উপযুক্ত পারফরম্যান্স পরিমাপ বেছে নিতে চান। আরওসি এবং পিআর বক্ররেখাগুলির মধ্যে মূল পার্থক্যগুলির জন্য একটি ভাল পর্যালোচনার জন্য, আপনি নিম্নলিখিত কাগজটি পড়তে পারেন: ডেভিস এবং গোয়াডরিচের লেখা যথার্থতা-রিকাল এবং আরওসি কার্ভগুলির মধ্যে সম্পর্ক

ডেভিস এবং গৌদ্রিকের উদ্ধৃতি দিতে:

যাইহোক, অত্যন্ত স্কিউড ডেটাসেটগুলির সাথে কাজ করার সময়, যথার্থ-রিক্যাল (পিআর) কার্ভগুলি একটি অ্যালগরিদমের কার্যকারিতার আরও তথ্যমূলক চিত্র দেয়।

আরওসি বক্ররেখা প্লট এফপিআর বনাম টিপিআর। আরও স্পষ্ট করতে: পিআর বক্ররেখা প্লটের যথার্থতা বনাম স্মরণ (এফপিআর), বা আরও স্পষ্টভাবে: recall=TP

FPR=FPFP+TN,TPR=TPTP+FN.
recall=TPTP+FN=TPR,precision=TPTP+FP

যথাযোগ্যতা সরাসরি ক্লাস (im) ভারসাম্য দ্বারা প্রভাবিত হয় যেহেতু আক্রান্ত হয়, তবে টিপিআর কেবল ধনাত্মকতার উপর নির্ভর করে। এই কারণেই আরওসি বক্ররেখাগুলি এ জাতীয় প্রভাবগুলি ক্যাপচার করে না।FP

উচ্চ ভারসাম্যহীন ডেটা সেটগুলির জন্য মডেলগুলির মধ্যে পার্থক্য হাইলাইট করার জন্য যথার্থ-পুনরুদ্ধার কার্ভগুলি আরও ভাল। আপনি যদি ভারসাম্যযুক্ত সেটিংসে বিভিন্ন মডেলের তুলনা করতে চান, পিআর বক্ররেখার অধীনে অঞ্চলটি সম্ভবত আরওসি বক্ররেখার অধীনে থাকা অঞ্চলের চেয়ে বৃহত্তর পার্থক্য প্রদর্শন করবে।

এটি বলেছিল, আরওসি বক্ররেখা অনেক বেশি সাধারণ (এমনকি তারা কম উপযুক্ত হলেও)। আপনার শ্রোতার উপর নির্ভর করে, আরওসি বক্ররেখাগুলি লিঙ্গুয়া ফ্রেঞ্চ হতে পারে তাই সেগুলি ব্যবহার করা সম্ভবত নিরাপদ পছন্দ। যদি কোনও মডেল পিআর স্পেসে সম্পূর্ণরূপে অন্যটির উপর আধিপত্য বিস্তার করে (যেমন সর্বদা পুরো রিকাল রেঞ্জের চেয়ে উচ্চতর নির্ভুলতা থাকে) তবে এটি আরওসি স্পেসেও আধিপত্য বয়ে আনবে। যদি কার্ভগুলি উভয় জায়গায় ক্রস করে তবে তারা অন্য জায়গায়ও অতিক্রম করবে। অন্য কথায়, মূল সিদ্ধান্তগুলি একই রকম হবে আপনি কোন বাঁক ব্যবহার করবেন না কেন similar


নির্লজ্জ বিজ্ঞাপন । অতিরিক্ত উদাহরণ হিসাবে, আপনি আমার একটি কাগজপত্রের দিকে নজর রাখতে পারেন যাতে আমি ভারসাম্যহীন সেটিংয়ে আরওসি এবং পিআর উভয় কর্ভের প্রতিবেদন করি। চিত্র 3 এ অভিন্ন মডেলগুলির জন্য আরওসি এবং পিআর বক্ররেখা রয়েছে যা স্পষ্টভাবে উভয়ের মধ্যে পার্থক্য দেখায়। আরওসি এর আওতায় পিআর বনাম অঞ্চলের ক্ষেত্রের সাথে তুলনা করতে আপনি সারণিগুলি 1-2 (AUPR) এবং সারণিগুলি 3-4 (AUROC) তুলনা করতে পারেন যেখানে আপনি দেখতে পারেন যে AUPR পৃথক মডেলের মধ্যে AUROC এর চেয়ে অনেক বড় পার্থক্য দেখায় । এটি আরও একবার পিআর কার্ভগুলির উপযুক্ততার উপর জোর দেয়।


বর্নানার জন্য ধন্যবাদ. এখন প্রশ্ন, পিআর বক্ররেখা ভারসাম্যহীন ডেটার জন্য আরও তথ্যপূর্ণ কেন? আমার জন্য, আরওসি আরও তথ্যবহুল হওয়া উচিত কারণ এটি টিপিআর এবং এফপিআর উভয়ই বিবেচনা করে।
এমএম

এছাড়াও এই দুটি নিবন্ধ আমাকে আরও বিভ্রান্ত করে তোলে! onlinelibrary.wiley.com/doi/10.1111/j.1466-8238.2007.00358.x/… চালানালিটিক্স.
এমএম

1
@ এমএম আমার উত্তরটি স্পষ্ট করে সম্পাদনা করেছেন।
মার্ক ক্লেসেন

1
আমি মনে করি টিপিআর এবং এফপিআর এর মধ্যে পুনর্বিবেচনার জন্য সমীকরণে একটি মিশ্রণ আছে, না?
সাইমন থর্ডাল

আপনি ঠিক বলেছেন, এটি হওয়া উচিত: প্রত্যাহার = ... = টিপিআর, এফপিআর নয়। @ মার্ক ক্লেসেন, আমি মনে করি কেবল আপনি এটি পরিবর্তন করতে পারবেন, কারণ যখন আমি এটি করার চেষ্টা করি তখন আমাকে জানিয়ে দেওয়া হয়: "সম্পাদনাগুলিতে কমপক্ষে characters টি অক্ষর থাকা উচিত", সুতরাং এটির মতো ছোট টাইপগুলি সংশোধন করা অসম্ভব।
পোনাড্টো

6

আরওসি বক্ররেখা Y- অক্ষের উপর টিপিআর এবং এক্স-অক্ষের এফপিআর প্লট করে তবে এটি আপনি কী চিত্রায়িত করতে চান তার উপর নির্ভর করে। আপনার অধ্যয়নের ক্ষেত্রে এটি আলাদাভাবে ষড়যন্ত্র করার কোনও কারণ না থাকলে, টিপিআর / এফপিআর আরওসি বক্ররেখা অপারেটিং ট্রেডঅফগুলি দেখানোর জন্য মানক এবং আমি বিশ্বাস করি যে তারা সর্বাধিক প্রশংসিত হবে।

যথার্থতা এবং প্রত্যাহার এককভাবে বিভ্রান্তিমূলক হতে পারে কারণ এটি সত্য negativeণাত্মক হিসাবে বিবেচনা করে না।


0

আমি আরওসি এবং পিআর এউসি-র সবচেয়ে বড় পার্থক্য বিবেচনা করি এই বিষয়টি যে আরওসি নির্ধারণ করছে যে আপনার মডেলটি কতটা ইতিবাচক শ্রেণি এবং নেতিবাচক শ্রেণীর "গণনা" করতে পারে যেখানে পিআর এউসি হিসাবে সত্যই কেবল আপনার ইতিবাচক শ্রেণির দিকে তাকাচ্ছে। সুতরাং ভারসাম্যপূর্ণ বর্গের পরিস্থিতিতে এবং যেখানে আপনি নেতিবাচক এবং ধনাত্মক উভয় শ্রেণীর জন্যই যত্নশীল সেখানে আরওসি এউসি মেট্রিক দুর্দান্ত কাজ করে। আপনার যখন ভারসাম্যহীন পরিস্থিতি রয়েছে, তখন পিআর এউসি ব্যবহার করা বেশি পছন্দ করা হয়, তবে মনে রাখবেন এটি কেবলমাত্র আপনার মডেলটি ইতিবাচক শ্রেণীর "গণনা" করতে পারে তা ঠিক করে নিচ্ছে!

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.