মনে করুন আমি কিছু শ্রেণিবিন্যাস সমস্যা নিয়ে কাজ করছি। (জালিয়াতি সনাক্তকরণ এবং মন্তব্য স্প্যাম দুটি সমস্যা যা আমি এখনই কাজ করছি, তবে আমি সাধারণভাবে কোনও শ্রেণিবদ্ধকরণের কাজ সম্পর্কে আগ্রহী)
আমি কীভাবে জানব যে আমার কোন শ্রেণিবদ্ধ ব্যবহার করা উচিত?
- সিদ্ধান্ত গাছ
- SVM
- Bayesian
- নিউরাল নেটওয়ার্ক
- কে-নিকটতম প্রতিবেশী
- কিউ-লার্নিং
- জেনেটিক অ্যালগরিদম
- মার্কভ সিদ্ধান্ত প্রক্রিয়া
- কনভোলিউশনাল নিউরাল নেটওয়ার্কসমূহ
- লিনিয়ার রিগ্রেশন বা লজিস্টিক রিগ্রেশন
- বুস্টিং, ব্যাগিং, ইনসাম্বলিং
- এলোমেলোভাবে পাহাড়ী আরোহণ বা অনুকরণযুক্ত
- ...
কোন ক্ষেত্রে এইগুলির মধ্যে একটি "প্রাকৃতিক" প্রথম পছন্দ, এবং এটি চয়ন করার জন্য নীতিগুলি কী?
আমি যে ধরণের উত্তর খুঁজছি তার উদাহরণ (ম্যানিং এট আল এর তথ্য পুনরুদ্ধারের বইয়ের ভূমিকা থেকে ):
ক। যদি আপনার ডেটা লেবেলযুক্ত থাকে তবে আপনার কেবলমাত্র সীমিত পরিমাণ রয়েছে, আপনার উচ্চ বায়াস সহ একটি শ্রেণিবদ্ধ ব্যবহার করা উচিত (উদাহরণস্বরূপ, নাইভ বেইস) ।
আমি অনুমান করছি এটি কারণ উচ্চতর পক্ষপাতিত্বকারী শ্রেণিবদ্ধের কম বৈকল্পিক থাকবে, যা অল্প পরিমাণ ডেটার কারণে ভাল।
খ। যদি আপনার কাছে এক টন ডেটা থাকে, তবে শ্রেণিবদ্ধকারী এতটা গুরুত্ব দেয় না, তাই আপনার সম্ভবত ভাল স্কেলাবিলিটি সহ একটি শ্রেণিবদ্ধ চয়ন করা উচিত।
অন্যান্য গাইডলাইন কি? এমনকি "যদি আপনাকে কোনও উচ্চতর পরিচালকের কাছে আপনার মডেলটি ব্যাখ্যা করতে হয় তবে সিদ্ধান্তের নিয়মগুলি মোটামুটি স্বচ্ছ" যেহেতু আপনার সিদ্ধান্তের গাছটি ব্যবহার করা উচিত সম্ভবত উত্তরগুলি ভাল। যদিও আমি বাস্তবায়ন / গ্রন্থাগার সংক্রান্ত বিষয়ে কম যত্ন নিই।
এছাড়াও, কিছুটা পৃথক প্রশ্নের জন্য, স্ট্যান্ডার্ড বায়েশিয়ান শ্রেণিবদ্ধীদের পাশাপাশি মন্তব্য স্প্যাম সনাক্তকরণের (ইমেল স্প্যামের বিপরীতে) কি 'স্ট্যান্ডার্ড স্টেট অফ দ্য-শিল্প' পদ্ধতি রয়েছে?