আরওসি বক্ররেখাগুলির সুবিধা


15

আরওসি বক্ররেখাগুলির সুবিধা কী?

উদাহরণস্বরূপ আমি কয়েকটি চিত্রকে শ্রেণিবদ্ধ করছি যা বাইনারি শ্রেণিবদ্ধকরণ সমস্যা। আমি প্রায় 500 টি বৈশিষ্ট্য আহরণ করেছি এবং বৈশিষ্ট্যগুলির একটি সেট নির্বাচন করতে একটি বৈশিষ্ট্য নির্বাচন অ্যালগরিদম প্রয়োগ করেছি তারপর আমি শ্রেণিবিন্যাসের জন্য এসভিএম প্রয়োগ করেছি। এই ক্ষেত্রে আমি কীভাবে একটি আরওসি বক্ররেখা পেতে পারি? আমার বৈশিষ্ট্য নির্বাচনের অ্যালগরিদমের থ্রোসোল্ড মানগুলি পরিবর্তন করা উচিত এবং একটি আরওসি বক্ররেখা আঁকার জন্য আউটপুটটির সংবেদনশীলতা এবং নির্দিষ্টতা পাওয়া উচিত?

আমার ক্ষেত্রে একটি আরওসি বক্ররেখা তৈরির উদ্দেশ্য কী?


2
টম ফ্যাসেটের "আরওসি বিশ্লেষণের একটি ভূমিকা" আমাকে আরওসি রেখাচিত্রগুলি আরও ভালভাবে বুঝতে সহায়তা করেছে। আপনি যদি বিষয়টিতে অতিরিক্ত সাহিত্য খুঁজছেন তবে আপনি এটি উপভোগ করতে পারেন।
আলেকজান্ডার

ঠিক আছে তবে দুটি শ্রেণিবদ্ধের তুলনা করতে আপনি কী করবেন? যদি তারা থ্রেশহোল্ডগুলি ব্যবহার করে যাতে নীড়ের নির্দিষ্টতা বা সংবেদনশীলতা খুব ঘনিষ্ঠভাবে মেলে তবে আমি মনে করি না যে আরওসি-র আরও বেশি কৌতুকের দিকে তাকানো ছাড়া কম্পিউটারের তুলনা করা সহজ।
মাইকেল আর চেরনিক

শ্রেণিবদ্ধগুলি বিকাশ করা খুব কমই উপযুক্ত এবং শ্রেণিবিন্যাস ত্রুটিটি একটি অযৌক্তিক স্কোরিং নিয়ম। সত্য ভবিষ্যদ্বাণীগুলির মানের তুলনা করার জন্য অনেকগুলি উচ্চ-শক্তি পদ্ধতি রয়েছে এবং তারা আরওসি বক্ররেখার চেয়ে স্বজ্ঞাত। উদাহরণস্বরূপ এটি দেখুন
ফ্র্যাঙ্ক হ্যারেল

উত্তর:


13

অনেক বাইনারি শ্রেণিবদ্ধকরণ অ্যালগরিদমগুলি শ্রেণিবিন্যাসের স্কোরকে এক ধরণের গণনা করে (কখনও কখনও তবে এটি সর্বদা লক্ষ্য স্থলে থাকার সম্ভাবনা থাকে না) এবং স্কোর একটি নির্দিষ্ট প্রান্তিকের চেয়ে উপরে কিনা তার ভিত্তিতে তারা শ্রেণিবদ্ধ করে। আরওসি বক্ররেখা আপনাকে মডেলিং কৌশল দ্বারা বেছে নেওয়া একের চেয়ে সমস্ত সম্ভাব্য প্রান্তিকের জন্য সংবেদনশীলতা এবং নির্দিষ্টতার মধ্যে ট্রেড অফ দেখতে দেয়। বিভিন্ন শ্রেণিবদ্ধকরণের উদ্দেশ্যগুলি একটি কার্যের জন্য বক্ররেখার উপর একটি পয়েন্টকে আরও উপযুক্ত এবং অন্য কোনও কাজের জন্য আরও উপযুক্ত উপযুক্ত করে তুলতে পারে, তাই আরওসি বক্ররেখার দিকে তাকানো একটি প্রান্তিকের পছন্দ থেকে আলাদাভাবে মডেলকে মূল্যায়ন করার একটি উপায়।


উত্তর দেওয়ার জন্য আপনাকে ধন্যবাদ। এটি সত্যিই দরকারী। আরওসি বক্রের উপর ভিত্তি করে প্রান্তিক নির্ধারণ করার উপায় আছে কি? এবং আমার ক্ষেত্রে আমি কীভাবে সংবেদনশীলতা = 100% বা নির্দিষ্টতা = 100% এর জন্য আরওসি স্পেসে একটি পয়েন্ট পেতে পারি। কারণ আমি বৈশিষ্ট্য নির্বাচনের অ্যালগরিদমের প্রান্তিক পরিবর্তন করছি।
user570593

1
আরওসি বক্ররেখা আপনাকে সমস্ত সম্ভাব্য প্রান্তিক স্থানে সংবেদনশীলতা এবং নির্দিষ্টতা দেখায়, সুতরাং আপনি যদি এমন একটি বিন্দু খুঁজে পান যা সঠিক ট্রেডঅফকে উপস্থাপন করে, আপনি বক্ররেখার যে বিন্দুটির সাথে যে প্রান্তিক প্রান্তটি বেছে নিতে পারেন।
মাইকেল ম্যাকগওয়ান

সঠিক ট্রেডঅফ নির্বাচন করার কোনও স্বয়ংক্রিয় উপায় আছে বা আমার নিজের দ্বারা ট্রেড অফ নির্বাচন করা উচিত? এবং আমার ক্ষেত্রে আমি কীভাবে সংবেদনশীলতা = 100% বা নির্দিষ্টতা = 100% এর জন্য আরওসি স্পেসে একটি পয়েন্ট পেতে পারি। কারণ আমি বৈশিষ্ট্য নির্বাচনের অ্যালগরিদমের প্রান্তিক পরিবর্তন করছি।
ব্যবহারকারী570593

2
আপনার যদি একটি সু-সংজ্ঞায়িত মানদণ্ড থাকে (উদাহরণস্বরূপ সুনির্দিষ্টভাবে সর্বাধিককরণ) তবে এটি স্বয়ংক্রিয়ভাবে করা যেতে পারে। তবে একটি সমস্যার জন্য একটি ভাল ট্রেডঅফ অন্যটির পক্ষে লম্পট হতে পারে।
মাইকেল ম্যাকগওয়ান

2
সংক্ষিপ্তসার বা 100% এর সুনির্দিষ্টতা নূন্যতম বা সর্বাধিক মান হিসাবে আপনার থ্রোসোল্ড সেট করে তুচ্ছভাবে পাওয়া যেতে পারে ... আপনি কি সত্যিই এটি চান?
মাইকেল ম্যাকগওয়ান

11

গত কয়েক বছরে আমি যে 99% কেস দেখেছি তার মধ্যে আরওসি বক্ররেখা তথ্যবহুল নয়। তারা অনেক পরিসংখ্যানবিদ এবং এমনকি আরও মেশিন লার্নিং অনুশীলনকারীদের দ্বারা বাধ্যতামূলক বলে মনে হয়। এবং নিশ্চিত করুন যে আপনার সমস্যাটি সত্যই একটি শ্রেণিবিন্যাস সমস্যা এবং ঝুঁকি অনুমানের সমস্যা নয়। আরওসি বক্ররেখাগুলির সমস্যার কেন্দ্রস্থল হ'ল তারা ব্যবহারকারীদের অবিচ্ছিন্ন ভেরিয়েবলের জন্য কাটপয়েন্টগুলি ব্যবহার করার জন্য আমন্ত্রণ জানায় এবং তারা পিছনের সম্ভাবনাগুলি, অর্থাৎ বিপরীত সময়ের ক্রমে (সংবেদনশীলতা এবং নির্দিষ্টতা) থাকা ইভেন্টগুলির সম্ভাব্যতা ব্যবহার করে। আরওসি বক্ররেখাগুলি সর্বাধিক ট্রেডঅফগুলি সন্ধান করতে ব্যবহার করা যায় না খুব বেশি বিশেষ ক্ষেত্রে যেখানে কোনও সিদ্ধান্তের বিধি ব্যবহারকারীরা তাদের ক্ষতি (ব্যয়; ইউটিলিটি) ফাংশন বিশ্লেষকের কাছে বাদ দেন।


আমি ফ্র্যাঙ্কের সাথে পুরোপুরি একমত হই না। আমি মনে করি আরওসি এর এউসি ব্যবহার করা প্রায়শই একটি সমস্যা। তবে গুণগতভাবে আমি মনে করি এটি অ্যালগরিদমের তুলনা করতে সহায়ক হতে পারে। কেবলমাত্র একটি নির্দিষ্ট বিন্দুতে সুনির্দিষ্টতা এবং সংবেদনশীলতার দিকে তাকানো প্রায় তথ্যবহুল নয়। এছাড়াও আমি নিশ্চিত নই যে তার উত্তরটি সত্যই প্রশ্নটিকে সম্বোধন করেছে কারণ ওপি সত্যই তার ক্ষেত্রে জানতে চায় কেন এটি 99% নন তথ্যবহুল মামলায় বা 1% যে তথ্যগত হয়।
মাইকেল আর। চেরনিক

হাই মাইকেল - আমি কেবল যুক্ত করব যে আমি জেনারালাইজড ব্যবস্থা, বেরিয়ার স্কোর (মানে স্কোয়ার ত্রুটির মতো) সহ সঠিক স্কোরিং বিধিগুলি ব্যবহার করতে চাই। আমি যা করতে চাই তা হ'ল ভবিষ্যদ্বাণীগুলি সঠিক accurate R2
ফ্র্যাঙ্ক হ্যারেল

@ ফ্র্যাঙ্কহারেল আমি কি আপনার দ্বারা "99% তথ্যবহুল ছিল না" বলতে চাচ্ছি তাতে আগ্রহী হব? এগুলি কী ধরণের মামলা এবং আরওসিসি ব্যবহার করা কখন সঠিক হবে? এছাড়াও বাইনারি সমস্যার জন্য কীভাবে জেনারালাইজড ব্যবস্থা আরও ভাল করা হয়? আমি কৌতূহলী কারণ এটি দেখে মনে হয় আপনারা সেখানে আরওসিসির বিরুদ্ধে যথেষ্ট দৃ sen় মনোভাব পোষণ করেছেন এবং আমি ব্যাকগ্রাউন্ডটি কী তা ভাবছি। R2
মোমো

1
@ ফ্র্যাঙ্কহারেল কিন্তু যখন দুটি অ্যালগরিদম নির্দিষ্টতা এবং সংবেদনশীলতা উভয়ের সাথে খুব ঘনিষ্ঠভাবে মেলে না তখন আপনি কীভাবে তুলনা করবেন?
মাইকেল আর চেরনিক

7
@ মোমো - আমি বলতে চাইছি যে আরওসি বক্ররেখাটি মডেলের কার্যকারিতা খুব ভালভাবে বুঝতে সহায়তা করে না এবং আরও বেশি আরওসি বক্ররেখা কোনও অন্তর্দৃষ্টি বা ভাল আচরণের দিকে পরিচালিত করে না। সাধারণ পরিমাপ করে সম্ভাবনা অনুপাত সহজ অনুবাদের হয় χ 2 পরিসংখ্যান এবং এত শক্তিশালী হয়। মাইকেল - পিছনের সময় অর্ডার করার কারণে আমি সংবেদনশীলতা বা নির্দিষ্টতার পক্ষে সত্যই আগ্রহী নই। আমি জানতে চাই যে 0.2 এর পূর্বাভাসিত ঝুঁকিটির অর্থ আসল ঝুঁকি 0.2 এর খুব কাছাকাছি, এবং আমি র‌্যাঙ্কের পারস্পরিক সম্পর্কের পরিমাপ বা জেনারালাইজড আর 2 দ্বারা পরিমাপকৃত শালীন ভবিষ্যদ্বাণীমূলক বৈষম্য চাই । R2χ2R2
ফ্র্যাঙ্ক হ্যারেল 20'12

1

একটি আরওসি বক্ররেখা তৈরি করার পরে, এউসি (বক্ররেখার নিচে অঞ্চল) গণনা করা যেতে পারে। অনেকগুলি থ্রেশহোল্ড জুড়ে এটিউসি পরীক্ষার যথার্থতা। এউসি = 1 মানে পরীক্ষা নিখুঁত। AUC = .5 এর অর্থ বাইনারি শ্রেণিবদ্ধকরণের জন্য সুযোগটি সম্পাদন করে।

যদি একাধিক মডেল থাকে তবে বিভিন্ন মডেল জুড়ে তুলনা করতে এওসি একটি একক পরিমাপ সরবরাহ করে। যে কোনও একক পরিমাপের সাথে সর্বদা ট্রেড-অফ রয়েছে তবে এটিউসি শুরু করার জন্য একটি ভাল জায়গা।


1
YcDxy

0

একে অপরের সাথে পূর্বাভাস করা সত্যিকারের বনামগুলির তুলনা এইউসি করে না। এটি ভবিষ্যদ্বাণী করা শ্রেণীর দিকে তাকিয়ে নয়, তবে ভবিষ্যদ্বাণী স্কোর বা সম্ভাবনা। আপনি এই স্কোরটিতে একটি কাট অফ প্রয়োগ করে ক্লাসের পূর্বাভাসটি করতে পারেন, বলুন, প্রতিটি নমুনা যা 0.5 এর নীচে স্কোর পেয়েছে তাকে নেতিবাচক হিসাবে শ্রেণীবদ্ধ করা হয়েছে। তবে আরওসি আসার আগেই আসে। এটি স্কোর / শ্রেণি-সম্ভাবনা নিয়ে কাজ করছে।

এটি এই স্কোরগুলি নেয় এবং সেই স্কোর অনুসারে সমস্ত নমুনা বাছাই করে। এখন, আপনি যখনই কোনও ইতিবাচক নমুনা পাবেন তখন আরওসি-বক্ররেখা একটি ধাপ বাড়িয়ে তোলে (y- অক্ষ সহ)। যখনই আপনি একটি নেতিবাচক নমুনা খুঁজে পান আপনি ডানদিকে সরান (এক্স অক্ষের সাথে)। যদি এই স্কোর দুটি শ্রেণীর জন্য আলাদা হয় তবে ইতিবাচক নমুনাগুলি প্রথম আসে (সাধারণত)। এর অর্থ আপনি ডানদিকের চেয়ে আরও বেশি পদক্ষেপ তৈরি করেন। আরও তালিকার নিচে নেতিবাচক নমুনাগুলি আসবে, সুতরাং আপনি বাম দিকে সরে যান। আপনি যখন নমুনাগুলির পুরো তালিকার মধ্য দিয়ে থাকেন তখন আপনি স্থানাঙ্কে পৌঁছান (1,1) যা ইতিবাচক 100% এবং নেতিবাচক নমুনার 100% এর সাথে মিলে যায়।

যদি স্কোরটি ইতিবাচকভাবে theণাত্মক নমুনাগুলি থেকে আলাদা করে ফেলে আপনি সমস্ত পথ (x = 0, y = 0) থেকে (1,0) এবং তারপর সেখান থেকে (1, 1) এ যান। সুতরাং, বক্ররেখার নিচে অঞ্চল 1।

যদি আপনার স্কোরের ধনাত্মক এবং নেতিবাচক নমুনাগুলির জন্য একই বিতরণ থাকে তবে বাছাই করা তালিকায় একটি ইতিবাচক বা নেতিবাচক নমুনা সন্ধানের সম্ভাবনা সমান এবং তাই আরওসি-বক্ররে উপরে বা বাম দিকে সরে যাওয়ার সম্ভাবনা সমান। এ কারণেই আপনি তির্যকটি বরাবর সরান, কারণ আপনি মূলত উপরে এবং বাম দিকে এবং উপরে এবং বাম দিকে চলে যান এবং আরও ... যা প্রায় 0.5 এর AROC মান দেয়।

ভারসাম্যহীন ডেটাসেটের ক্ষেত্রে স্টেপসাইজ আলাদা। সুতরাং, আপনি বাম দিকে ছোট পদক্ষেপগুলি তৈরি করেন (যদি আপনার কাছে আরও নেতিবাচক নমুনা থাকে)। যে কারণে ভারসাম্যহীনতা থেকে স্কোর কম বেশি স্বতন্ত্র।

সুতরাং আরওসি বক্ররেখার সাহায্যে, আপনি কীভাবে আপনার নমুনাগুলি পৃথক হয়ে যায় এবং বাইনারি শ্রেণিবদ্ধকরণ অ্যালগরিদম বা পৃথক শ্রেণিতে পৃথক শ্রেণীর জন্য ব্যবহৃত হতে পারে এমন কোনও ভেরিয়েবলের কর্মক্ষমতা পরিমাপের জন্য বক্ররেখার ক্ষেত্রফলটি খুব ভাল মেট্রিক হতে পারে।

enter image description here

চিত্রটি বিভিন্ন নমুনা আকারের সাথে একই বিতরণ দেখায়। কালো অঞ্চলটি দেখায় যেখানে ইতিবাচক এবং নেতিবাচক নমুনার এলোমেলো মিশ্রণের আরওসি-বক্ররেখা প্রত্যাশিত হবে।


এই গ্রাফগুলি কোনও অন্তর্দৃষ্টি দেয় না এবং ব্যতিক্রমী উচ্চ কালি থাকে: তথ্য অনুপাত আইএমএইচও। যথাযথ নির্ভুলতার স্কোরের সাথে আঁকুন : fharrell.com/post/class-damage fharrell.com/post/addvalue
ফ্র্যাঙ্ক হ্যারেল

একক এক মাত্রিক নির্ভুলতার স্কোরের চেয়ে এই গ্রাফগুলিতে আরও অনেক তথ্য রয়েছে। একই স্কোর বিভিন্ন বিভিন্ন বিতরণ থেকে আসতে পারে। আপনার কি প্রাথমিক পরিচয় আছে? আপনার কাছে ইতিবাচক নমুনার একাধিক শ্রেণি রয়েছে যা আলাদা আচরণ করে? আপনার ফলাফল পরিসংখ্যানগতভাবে তাৎপর্যপূর্ণ? এই সমস্ত প্রশ্নগুলির উত্তরগুলি স্পষ্টভাবে সেই গ্রাফগুলি দেখে এবং একক নির্ভুলতার স্কোর দিয়ে সম্বোধন করা অসম্ভব।
সেরেন

আমি গুরুতরভাবে প্রশ্ন করি যে ভোক্তা এবং বিশ্লেষকরা এই বাঁকগুলি থেকে অন্তর্দৃষ্টি পেতে পারেন যা পূর্বাভাসিত মানগুলি দেখায় এমন একটি উচ্চ-রেজোলিউশন হিস্টোগ্রামের সাহায্যে ক্যালিব্রেশন বক্ররেখাকে দেখানোর মতো স্বজ্ঞাত কাছাকাছি near এবং আরওসি বক্ররেখার প্রতিটি পয়েন্ট হ'ল একটি অনুচিত নির্ভুলতার স্কোর।
ফ্র্যাঙ্ক হ্যারেল

প্রাথমিকভাবে এই বক্ররেখা বোঝার জন্য প্রায়শই কঠিন সময় হয়। অতএব, আপনার পণ্যটির বিজ্ঞাপন দেওয়ার জন্য আমি ক্রেতাদের কাছে এটি দেখানোর প্রয়োজনের পরামর্শ দেব না would আমি মনে করি, সেখানে আপনি এমন কিছু চাই যা আরও সরল। কার্ভটি যদিও পৃথক পয়েন্টগুলির চেয়ে বেশি।
সেরেন
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.