শ্রেণিবিন্যাসের সেটিংয়ে যখন যথাযথ স্কোরিং নিয়ম সাধারণীকরণের আরও ভাল অনুমান হয়?


9

শ্রেণিবদ্ধকরণ সমস্যা সমাধানের জন্য একটি সাধারণ পদ্ধতির মধ্যে প্রার্থী মডেলগুলির একটি শ্রেণি চিহ্নিত করা এবং তারপরে ক্রস বৈধকরণের মতো কিছু পদ্ধতি ব্যবহার করে মডেল নির্বাচন করা। সাধারণত কেউ সর্বোচ্চ নির্ভুলতার সাথে মডেল বা কিছু সম্পর্কিত ফাংশন নির্বাচন করে যা সমস্যা সম্পর্কিত নির্দিষ্ট তথ্য যেমন এনকোড করে ।Fβ

শেষ লক্ষ্যটি ধরে নেওয়া হ'ল একটি নির্ভুল শ্রেণিবদ্ধকারী উত্পাদন করা (যেখানে সঠিকতার সংজ্ঞা আবার, সমস্যা নির্ভর) যেখানে কোন পরিস্থিতিতে যথাযথতা, যথার্থতা, পুনর্বিবেচনার মতো অন্যায় কিছু হিসাবে সঠিক স্কোরিং নিয়ম ব্যবহার করে মডেল নির্বাচন করা আরও ভাল is ইত্যাদি? তদুপরি, আসুন মডেল জটিলতার বিষয়গুলি উপেক্ষা করুন এবং একটি প্রাইরি ধরে নেওয়া যাক আমরা সমস্ত মডেলকে সমানভাবে বিবেচনা করি।

আগে আমি কখনই বলতাম না। আমরা জানি, একটি আনুষ্ঠানিক অর্থে, শ্রেণিবিন্যাস হ'ল রিগ্রেশন [1], [2] এর চেয়ে সহজ সমস্যা এবং আমরা পরবর্তী ( ) এর চেয়ে প্রাক্তনের পক্ষে আরও কঠোর সীমারেখা অর্জন করতে পারি । তদ্ব্যতীত, সম্ভাব্যতার সাথে নির্ভুলভাবে মেলে দেখার চেষ্টা করার পরেও ভুল সিদ্ধান্তের সীমানা বা অত্যধিক মানসিকতার ফলাফল হতে পারে । তবে, এখানে কথোপকথন এবং এই জাতীয় সমস্যাগুলির বিষয়ে সম্প্রদায়ের ভোটদানের ধরণের ভিত্তিতে আমি এই দৃষ্টিভঙ্গিটি নিয়ে প্রশ্ন করছি।

  1. দেবরোয়ে, লুক প্যাটার্ন স্বীকৃতির একটি সম্ভাব্য তত্ত্ব। ভোল। 31. স্প্রিংগার, 1996., ধারা 6.7
  2. কেয়ার্নস, মাইকেল জে। এবং রবার্ট ই। শাপ্পায়ার। সম্ভাব্য ধারণাগুলির দক্ষ বিতরণ-মুক্ত শিখন। কম্পিউটার সায়েন্সের ভিত্তি, 1990. কার্যক্রিয়া।, 31 তম বার্ষিক সিম্পোজিয়াম। আইইইই, 1990।

() এই বিবৃতিটি কিছুটা opালু হতে পারে। আমি বিশেষভাবে ফর্মের প্রদত্ত লেবেল তথ্য মানে সঙ্গে এবং , শর্তসাপেক্ষ সম্ভাবনার সঠিকতা অনুমান করার চেয়ে সিদ্ধান্তের সীমানা অনুমান করা সহজ বলে মনে হয়।S={(x1,y1),,(xn,yn)}xiXyi{1,,K}

উত্তর:


4

এর মধ্যে একটি তুলনা হিসাবে এই চিন্তা -test / Wilcoxon পরীক্ষা এবং মেজাজ মধ্যমা পরীক্ষা। মিডিয়ান টেস্টটি সর্বোত্তম শ্রেণিবিন্যাস ব্যবহার করে (একটি ধ্রুবক ভেরিয়েবলের জন্য মাঝের উপরে বা নীচে) যাতে এটি কেবলমাত্র নমুনায় থাকা হারায় । মিডিয়ান থেকে আলাদা একটি পয়েন্টে ডিকোটোমাইজেশন আরও অনেক তথ্য হারাবে। অনুপাতযুক্ত শ্রেণিবদ্ধ "সঠিকভাবে" এর মতো একটি ভুল স্কোরিং নিয়ম ব্যবহার করা সর্বাধিক বা প্রায় দক্ষ। এর ফলে ভুল বৈশিষ্ট্যগুলি নির্বাচন করা এবং এমন একটি মডেল খুঁজে পাওয়া যায় যা বগাস।t1π2π23


আমার ধারণা আমি দ্বিধোটাইমেশন প্রাসঙ্গিক কেন বুঝতে পারছি না। পরিশেষে লক্ষ্য একটি ক্লাসিফায়ার বাছাই হয় কিছু হাইপোথিসিস ক্লাস থেকে যেমন যে সংক্ষিপ্ত দেওয়া কিছু সসীম নমুনা উদাহরণ গঠিত অনুযায়ী বিতরণ করা । hHP(x,y)D(h(x)y)SD
অল্টো

2
সমস্যাটি হ'ল শ্রেণিবিন্যাস (ঝুঁকি পূর্বাভাসের বিপরীতে) একটি অপ্রয়োজনীয় দ্বিচোটোমাইজেশন।
ফ্র্যাঙ্ক হ্যারেল

সুতরাং এই প্রশ্নের উত্তরটি কখনই হয় না তা নিরাপদ বলে মনে করা নিরাপদ, তবে লক্ষ্যটি কিছুটা ইউটিলিটি ফাংশনের ক্ষেত্রে বেইস সর্বোত্তম সিদ্ধান্ত গ্রহণ এবং সম্ভাব্যতার সাথে সঠিকভাবে মেলে না?
Alto

বায়েসের সর্বোত্তম সিদ্ধান্তটি যথাযথভাবে ক্যালিব্রেটেড পূর্বাভাসযুক্ত ঝুঁকির প্রয়োজন যাতে দুটি সংযুক্ত থাকে। সর্বোত্তম সিদ্ধান্ত dichotomization কাজে লাগাতে না পূর্ণ তথ্য, যেমন, উপর পাইপলাইন কিন্তু অবস্থায় আগে তৈরি না । Prob(Y=1|X=x)Prob(Y=1|X>c)
ফ্র্যাঙ্ক হ্যারেল

1
চমৎকার আলোচনা। কিছু স্প্যাম ডিটেক্টরগুলির সাথে কিছু ক্ষেত্রে, আপনি একটি 'অনিশ্চিত' পেতে পারেন। আমি মেডিকেল ডায়াগনোসিস এবং প্রিগনোসিসের মতো সমস্যায় প্রান্তিকের সাথে আরও উদ্বিগ্ন।
ফ্র্যাঙ্ক হ্যারেল
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.