আরওসি বক্ররেখা বোঝা যাচ্ছে


57

আরওসি বক্ররেখা বুঝতে আমার সমস্যা হচ্ছে।

যদি আমি প্রশিক্ষণের সেটগুলির প্রতিটি অনন্য উপসেট থেকে বিভিন্ন মডেল তৈরি করি এবং এটি সম্ভাব্যতা তৈরি করতে ব্যবহার করি তবে আরওসি বক্ররেখার অধীনে কি কোনও সুবিধা / উন্নতি হবে? উদাহরণস্বরূপ, যদি এর মান আছে , এবং আমি মডেল নির্মান ব্যবহার করে 1 ম -4 র্থ মান থেকে ও 8 ম-9th মান এবং রেলের ট্রেনের ডেটা ব্যবহার করে মডেল তৈরি করুন। শেষ পর্যন্ত সম্ভাবনা তৈরি করুন। কোন চিন্তা / মন্তব্য অনেক প্রশংসা করা হবে।y{a,a,a,a,b,b,b,b}AayyB

আমার প্রশ্নের আরও ভাল ব্যাখ্যার জন্য এখানে র কোডটি রয়েছে:

Y    = factor(0,0,0,0,1,1,1,1)
X    = matirx(rnorm(16,8,2))
ind  = c(1,4,8,9)
ind2 = -ind

mod_A    = rpart(Y[ind]~X[ind,])
mod_B    = rpart(Y[-ind]~X[-ind,])
mod_full = rpart(Y~X)

pred = numeric(8)
pred_combine[ind]  = predict(mod_A,type='prob')
pred_combine[-ind] = predict(mod_B,type='prob')
pred_full          = predict(mod_full, type='prob')

তাই আমার প্রশ্ন হল, এর আরওসি বক্ররেখা অধীনে এলাকা pred_combineবনাম pred_full


3
একটি ভাল উদাহরণ প্রশ্ন উন্নত করতে অনেক কিছু করতে হবে।
এমপিক্টাস

আমার বোধগম্যতা হল আপনি কিছু নির্দিষ্ট নমুনা বেছে নিয়ে এওসি বাড়াতে চান? যদি এটি আপনার উদ্দেশ্য হয় তবে আমি দৃ strongly়ভাবে বিশ্বাস করি যে পক্ষপাতদুষ্ট নমুনা নির্বাচনের এই পদ্ধতিটি সম্পূর্ণ ভুল, কমপক্ষে যদি আপনার উদ্দেশ্য শ্রেণিবিন্যাসের পারফরম্যান্সের জন্য একটি ভাল পরিমাপ খুঁজে পাওয়া যায়।
রাপাইও

উত্তর:


174

আমি নিশ্চিত হয়েছি যে আমি প্রশ্ন পেয়েছি, তবে যেহেতু শিরোনামটি আরওসি বক্ররেখা ব্যাখ্যা করার জন্য জিজ্ঞাসা করছে, তাই আমি চেষ্টা করব।

আপনার শ্রেণিবদ্ধকারী ইতিবাচক এবং নেতিবাচক উদাহরণগুলি কীভাবে পৃথক করতে পারে এবং সেগুলি পৃথক করার জন্য সর্বোত্তম প্রান্তিক শনাক্ত করতে পারে তা দেখতে আরওসি কার্ভগুলি ব্যবহার করা হয়।

আরওসি কার্ভটি ব্যবহার করতে সক্ষম হতে, আপনার শ্রেণিবদ্ধকারীকে র‌্যাঙ্কিং করতে হবে - অর্থাৎ এটি এমন উদাহরণগুলি র‌্যাঙ্ক করতে সক্ষম হওয়া উচিত যে উচ্চতর পদযুক্ত ব্যক্তিরা ইতিবাচক হওয়ার সম্ভাবনা বেশি থাকে more উদাহরণস্বরূপ, লজিস্টিক রিগ্রেশন সম্ভাব্যতা আউটপুট করে, এটি এমন একটি স্কোর যা আপনি র‌্যাঙ্কিংয়ের জন্য ব্যবহার করতে পারেন।

আরওসি বক্ররেখা আঁকছে

একটি ডেটা সেট এবং একটি র‌্যাঙ্কিং শ্রেণিবদ্ধকারী দেওয়া হয়েছে:

  • সর্বোচ্চ থেকে সর্বনিম্ন পর্যন্ত স্কোর অনুসারে পরীক্ষার উদাহরণগুলি অর্ডার করুন
  • শুরু(0,0)
  • সাজানো ক্রমে প্রতিটি উদাহরণ এর জন্য x
    • যদি ইতিবাচক হয় তবে উপরে সরিয়ে দিনx1/pos
    • যদি নেতিবাচক হয় তবে ডানদিকে সরানx1/neg

যেখানে যথাক্রমে ধনাত্মক এবং নেতিবাচক উদাহরণগুলির এবং ।posneg

এই দুর্দান্ত জিআইএফ-অ্যানিমেটেড চিত্রটির এই প্রক্রিয়াটি আরও পরিষ্কার করা উচিত

বক্ররেখা তৈরি

এই গ্রাফটিতে, এক্সিস হ'ল সত্য ধনাত্মক হার, এবং এক্সিসগুলি মিথ্যা ধনাত্মক হার। তির্যক রেখাটি নোট করুন - এটি বেসলাইন, যা এলোমেলো শ্রেণিবদ্ধের সাহায্যে পাওয়া যায়। আমাদের আরওসি বক্ররেখা যত লাইন উপরে থাকবে তত ভাল।yx

আরওসি এর আওতাধীন অঞ্চল

রকের অধীনে অঞ্চল

আরওসি বক্ররেখার (ছায়া গো) নীচের অঞ্চলটি স্বাভাবিকভাবে দেখায় যে বেস লাইন থেকে বক্ররেখা কত দূরে। বেসলাইনটির জন্য এটি 0.5 এবং নিখুঁত শ্রেণিবদ্ধের জন্য এটি 1।

আপনি এই প্রশ্নের মধ্যে এওসি আরওসি সম্পর্কে আরও পড়তে পারেন: এউসি কীসের পক্ষে দাঁড়ায় এবং এটি কী?

সেরা থ্রেশহোল্ড নির্বাচন করা

আমি সংক্ষিপ্তভাবে সেরা প্রান্তিক নির্বাচন করার প্রক্রিয়াটির রূপরেখা করব এবং আরও বিশদটি রেফারেন্সে পাওয়া যাবে।

সেরা থ্রোসোল্ডটি নির্বাচন করতে আপনি আপনার আরওসি বক্ররেখার প্রতিটি পয়েন্টকে পৃথক শ্রেণিবদ্ধ হিসাবে দেখেন। এই মিনি-শ্রেণিবদ্ধরা পয়েন্টটি + এবং - এর মধ্যে সীমানা হিসাবে প্রাপ্ত স্কোরটি ব্যবহার করে (যেমন এটি বর্তমানের উপরে সমস্ত পয়েন্ট হিসাবে শ্রেণিবদ্ধ করে)

আমাদের ডেটা সেটে পজ / নেগ ভগ্নাংশের উপর নির্ভর করে - 50% / 50% ক্ষেত্রে বেসলাইনের সমান্তরাল - আপনি আইএসও নির্ভুলতা লাইন তৈরি করেন এবং সেরা যথার্থতার সাথে একটিকে নিয়ে যান।

এখানে এমন একটি চিত্র যা চিত্রিত করে এবং বিশদগুলির জন্য আমি আপনাকে আবারও রেফারেন্সে আমন্ত্রণ জানাই

সেরা থ্রোসোল্ড নির্বাচন করা

উল্লেখ


দুর্দান্ত মন্তব্যের জন্য ধন্যবাদ! আমি দুঃখিত যে আমি আপনার উত্তরের পক্ষে আপত্তি করতে পারলাম না বলে মনে হয় আমার 15 টিরও বেশি খ্যাতি থাকা দরকার :(
তাই শিন

শুধু কৌতূহলী, আপনার ধাপের আকারটি আপনার শ্রেণিবদ্ধের দ্বারা উত্পাদিত ধনাত্মক / নেতিবাচক লেবেলের সংখ্যার উপর নির্ভর করতে হবে? জিআইএফ-তে, ধাপের আকারটি উপরের দিকে 1 .1, আপনার যদি অতিরিক্ত ধনাত্মক লেবেল থাকে (negativeণাত্মক লেবেলের জায়গায়), তবে "বাঁকুন "টি উল্লম্ব অক্ষের উপর 1.1 এ শেষ হতে পারে (অথবা সম্ভবত আমি কিছু মিস করছি) ?)। তো, সেক্ষেত্রে আপনার ধাপের আকার আরও কম হওয়া দরকার?
কিফস

না, ধাপের আকারটি শ্রেণিবদ্ধকারের নির্ভুলতার উপর নির্ভর করে না, ডেটাসেটে ধনাত্মক / নেতিবাচক উদাহরণগুলির সংখ্যার উপর নির্ভর করে।
আলেক্সি গ্রিগোরভ

2
@ গুং বুঝেছি। আলেক্সি: ইতিবাচক এবং নেতিবাচক উদাহরণগুলির পরিবর্তে, আমি মনে করি এটি হওয়া উচিত: সত্য ধনাত্মক এবং মিথ্যা ধনাত্মক। আপনি উত্তরটির আমার সংস্করণটি দেখতে সক্ষম হতে পারেন যা গাং দ্বারা উল্টানো হয়েছিল। ধন্যবাদ
এসকেচাতোর

3
@ অ্যালেক্সিগ্রিগরেভ, আপনি যে উত্তরটি দিয়েছেন তা পছন্দ করুন এবং ভোট দিন। আমি নিশ্চিত না যে এখানে দুটি আরওসি সংজ্ঞা রয়েছে কিনা। আমি এখানে আরওসি সংজ্ঞার কথা উল্লেখ করছি ( এন। উইকিপিডিয়া.org / উইকি / রিসিভার_পিটারিং_চার্যাকটিস্টিক ), এক্স-অক্ষটি মিথ্যা পজিটিভ রেট হওয়া উচিত, যা (# পূর্বাভাসকে ইতিবাচক বলে মনে করে তবে নেতিবাচক হওয়া উচিত) / (মোট # নেতিবাচক), আমি রেফারেন্সে ভাবি, আমার মনে হয় যে এক্স-অক্ষগুলি মিথ্যা ধনাত্মক হার আঁকছে না, যা (মোট # নেতিবাচক) বিবেচনা করে না?
লিন মা
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.