একটি উচ্চ নির্ভুলতা বা উচ্চ রিকাল বাইনারি শ্রেণিবদ্ধকারীর জন্য কোন ক্ষতির ফাংশন ব্যবহার করা উচিত?


11

আমি স্লাইডিং / রাইজাইজড উইন্ডোতে সিএনএন বাইনারি ক্লাসিফায়ার প্রয়োগ করার পরিকল্পনা করছি, যা খুব কমই ঘটে (চিত্রগুলিতে) অবজেক্টগুলির একটি সনাক্তকারী তৈরি করার চেষ্টা করছি। আমি ভারসাম্য 1: 1 ইতিবাচক-নেতিবাচক প্রশিক্ষণ এবং পরীক্ষার সেটগুলি তৈরি করেছি (বিটিডব্লিউ ক্ষেত্রে এমনটি করা কি সঠিক জিনিস?), এবং শ্রেণিবদ্ধক নির্ভুলতার দিক দিয়ে একটি পরীক্ষার সেটগুলিতে জরিমানা করছেন। এখন আমি আমার শ্রেণিবদ্ধের পুনরুদ্ধার / যথার্থতা নিয়ন্ত্রণ করতে চাই তাই উদাহরণস্বরূপ, এটি ভুলভাবে সংখ্যাগরিষ্ঠ শ্রেণীর উপস্থিতিগুলিকে খুব বেশি লেবেল করবে না।

স্পষ্টতই (আমার জন্য) সমাধান হ'ল একই লজিস্টিক লস ব্যবহার করা যা এখন ব্যবহৃত হয়, তবে ওজন টাইপ আই এবং টাইপ II ত্রুটিগুলি কিছু ধ্রুবকের উপর দুটি ক্ষেত্রে একটিতে লোকসানের গুণকে আলাদা করে আলাদা করা যায়, যা সুর করা যেতে পারে। এটা কি ঠিক?

পিএস দ্বিতীয় ভাবাতে এটি অন্যদের তুলনায় কিছু প্রশিক্ষণের নমুনা ওজনের সমান। আমি মনে করি এক শ্রেণীর আরও কিছু যুক্ত করলে তা অর্জন করবে।


আপনি কি কখনও এই সমাধান করেছেন? আমারও একই উদ্দেশ্য। আমি যথার্থ (টাইপ 1) এর জন্য অপ্টিমাইজ করতে চাই এবং টাইপ 2 ত্রুটির বিষয়ে কম যত্ন নিই, তাই ক্ষতির কার্যকারিতা সম্পর্কে কী করা যায় তা বিবেচনা করে দেখছি।
জোনাথন শোর 15

উত্তর:


6

কৃত্রিমভাবে ভারসাম্য প্রশিক্ষণের সেট তৈরি করা বিতর্কযোগ্য, আসলে বেশ বিতর্কিত। আপনি যদি এটি করেন তবে আপনাকে অভিজ্ঞতার সাথে যাচাই করা উচিত যে প্রশিক্ষণটি ভারসাম্যহীন রেখে যাওয়ার চেয়ে এটি সত্যিই আরও ভাল কাজ করে। কৃত্রিমভাবে পরীক্ষা-সেট ভারসাম্য প্রায় ভাল ধারণা না। লেবেল ছাড়াই টেস্ট-সেটটিতে নতুন ডেটা পয়েন্টগুলি উপস্থাপন করা উচিত। আপনি সেগুলি ভারসাম্যহীন হওয়ার প্রত্যাশা করছেন, সুতরাং আপনার মডেলটি ভারসাম্যহীন পরীক্ষা-সেট পরিচালনা করতে পারে কিনা তা জানতে হবে। (আপনি যদি নতুন রেকর্ডগুলি ভারসাম্যহীন হওয়ার প্রত্যাশা না করেন তবে আপনার সমস্ত বিদ্যমান রেকর্ড ভারসাম্যহীন কেন?)

আপনার পারফরম্যান্স মেট্রিক সম্পর্কিত, আপনি সর্বদা যা চান তা পাবেন। ভারসাম্যহীন সেটে যথাযথতা যা আপনার সর্বাধিক প্রয়োজন তা যদি না হয়, কারণ কেবল ক্লাসই নয় অপ্রয়োজনীয় মূল্যও ভারসাম্যহীন, তবে এটি ব্যবহার করবেন না। আপনি যদি যথাযথতাকে মেট্রিক হিসাবে ব্যবহার করেন এবং সর্বদা সর্বোত্তম নির্ভুলতার সাথে একটি করে আপনার সমস্ত মডেল নির্বাচন এবং হাইপারপ্যারমিটার টিউনিং করে থাকেন তবে আপনি নির্ভুলতার জন্য অপ্টিমাইজ করছেন।

আমি সংখ্যালঘু শ্রেণিকে ধনাত্মক শ্রেণি হিসাবে গ্রহণ করি, এটি তাদের নামকরণের প্রচলিত উপায়। নীচে আলোচিত হিসাবে যথার্থতা এবং প্রত্যাহার হ'ল সংখ্যালঘু শ্রেণীর যথার্থতা এবং পুনরুদ্ধার।

  • যদি একমাত্র গুরুত্বপূর্ণ জিনিসটি সংখ্যালঘু শ্রেণীর সমস্ত রেকর্ড সনাক্ত করতে হয় তবে আপনি পুনরায় প্রত্যাহার করতে পারেন। আপনি আরও মিথ্যা ইতিবাচক গ্রহণ করছেন।
  • কেবলমাত্র নির্ভুলতার অপ্টিমাইজ করা খুব বিচিত্র ধারণা হবে। আপনি আপনার ক্লাসিফায়ারকে বলবেন যে সংখ্যালঘু শ্রেণীর অবমূল্যায়ন করা কোনও সমস্যা নয়। উচ্চতর নির্ভুলতার সবচেয়ে সহজ উপায় হ'ল সংখ্যালঘু শ্রেণি ঘোষণায় সতর্কতা অবলম্বন করা।
  • আপনার যদি নির্ভুলতা এবং পুনর্নির্মাণের প্রয়োজন হয় তবে আপনি এফ-মাপ নিতে পারেন। এটি নির্ভুলতা এবং পুনর্বিবেচনার মধ্যে সুরেলা গড় এবং ফলস্বরূপ উভয় মেট্রিকের বিভাজন যেখানে শাস্তি দেয়।
  • আপনি যদি উভয় দিকেই কংক্রিটের ভুল শ্রেণিবিন্যাসের ব্যয় জানেন (এবং সঠিক শ্রেণিবদ্ধের লাভ যদি তারা প্রতি শ্রেণি অনুসারে আলাদা হয়) তবে আপনি সমস্ত কিছু ক্ষতির ক্ষেত্রে রেখে দিতে পারেন এবং এটি অনুকূলিত করতে পারেন।

3

আপনি বিভিন্ন অনুমান করছেন। চূড়ান্ত লক্ষ্যটিকে সাধারণভাবে বিবেচনা করা সবচেয়ে ভাল, তারপরে একটি কৌশল তৈরি করুন যা সেই লক্ষ্যটি পূরণ করে। উদাহরণস্বরূপ আপনার কি জোর-পছন্দীয় শ্রেণিবদ্ধকরণের প্রয়োজন এবং এটি সংকেত: শোনার অনুপাতটি যথেষ্ট সমর্থন করতে পারে (ভাল উদাহরণ: শব্দ এবং চিত্রের স্বীকৃতি)? বা সংকেত: শব্দ অনুপাত কম বা আপনি প্রবণতাগুলিতে আগ্রহী ? পরবর্তীকালের জন্য, ঝুঁকি অনুমান আপনার জন্য। পছন্দটি কী এবং আপনার চয়ন করা ভবিষ্যদ্বাণীপূর্ণ নির্ভুলতা মেট্রিককে নির্দেশ দেয়। এই সমস্ত বিষয়ে আরও চিন্তার জন্য দেখুন http://www.fharrell.com/2017/01/classization-vs-predication.html এবং http://www.fharrell.com/2017/03/damage-caused-by-classization .html

বেশিরভাগ সমস্যার সমাধান সিদ্ধান্ত গ্রহণ , এবং সর্বোত্তম সিদ্ধান্তগুলি ক্ষতি / ব্যয় / ইউটিলিটি ফাংশন সহ ঝুঁকি অনুমান থেকে আসে।

ঝুঁকি (সম্ভাব্যতা) অনুমানের পদ্ধতির সেরা দিকগুলির মধ্যে একটি হল এটি ধূসর অঞ্চলগুলি পরিচালনা করে যেখানে আরও ডেটা না পেয়ে শ্রেণিবদ্ধকরণ বা সিদ্ধান্ত নেওয়া কোনও ভুল হবে be এবং তারপরে এই ঘটনাটিও রয়েছে যে সম্ভাবনার প্রাক্কলনটি নমুনাটি কৃত্রিমভাবে চালিত করে ফলাফলকে "ভারসাম্য" দেওয়ার প্রয়োজন হয় না (এমনকি অনুমতি দেয় না) allow


1

Σ=1জেলগ{1+ +মেপুঃ[-(এক্স)]}+ +Σ=1কেলগ{1+ +মেপুঃ[(এক্স)]}
()এক্স
Σ=1জেলগ{1+ +মেপুঃ[-(এক্স)]}+ +Σ=1কেWলগ{1+ +মেপুঃ[(এক্স)]}
W>1WW=2

তবে এটি আর সর্বাধিক সম্ভাবনা অনুমানকারী হবে না - একটি পরিসংখ্যান নং
ফ্র্যাঙ্ক হ্যারেল

1
সম্মত হন, তবে আমি নিশ্চিত নই যে লজিস্টিক রিগ্রেশন-এর পরামিতিগুলির পরিসংখ্যানগত অনুকরণ পছন্দসই লক্ষ্য না হলে (সিএনএন ব্যবহারের ওপির উল্লেখটি এমএল-ভিত্তিক নয়)। প্রকৃতপক্ষে, এই ওজনযুক্ত পদ্ধতির সর্বাধিক / সমস্ত অনুমানগত আউটপুট সেরা উপেক্ষা করা হবে, তবে মডেল এবং ফলস্বরূপ ঝুঁকি স্কোরগুলি এখনও পছন্দসই ফলাফলগুলির সাথে একটি বৈধতা সেটগুলিতে প্রয়োগ করা যেতে পারে, যেমন ভাল বৈষম্য / ক্রমাঙ্কন।
ট্র্যাভিস গার্ক

1
না, আপনি মডেলটির ক্রমাঙ্কনকে বিঘ্নিত করবেন এবং উপরোক্ত পদ্ধতির সাথে আরও কোলাহলপূর্ণ পরামিতি অনুমান পাবেন। কিছু ভাল কারণেই এমএলই বিদ্যমান রয়েছে।
ফ্রাঙ্ক হ্যারেল

এক দিক দিয়ে ভুল শ্রেণিবদ্ধকরণ সম্পর্কে খুব উদ্বিগ্ন হওয়ার তুচ্ছ বিষয় বিবেচনা করুন, তবে অন্যটি নয় - অর্থাত কোনও এক দিকের শূন্যের ক্ষতি। এই ক্ষতির জন্য সেরা মডেলটি কেবল উদ্বেগের শ্রেণীর পূর্বাভাস দেবে। যদিও এটি একটি ভয়াবহ মডেল হবে তবে লক্ষ্যটি অর্জন করা হয়েছে। উদ্দেশ্য বুঝতে এবং এটির উদ্দেশ্য বুঝতে না পারলে তাত্ত্বিক ধারণার (এমএলই) অন্ধ বিশ্বাস স্থাপন না করা গুরুত্বপূর্ণ। ট্র্যাভিসগার্কের দ্বারা যেমন উল্লেখ করা হয়েছে, যদি মডেলিংয়ের চেয়ে ভবিষ্যদ্বাণীতে জোর দেওয়া হয়, তবে তার পদ্ধতিটি বেশ কার্যকর। এটি অবশ্যই সংখ্যাগরিষ্ঠ শ্রেণিকে নিখরচায়নের চেয়ে ভাল।
স্ট্যাটিসেকার
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.