নাইভ বেয়েস কখন এসভিএম এর চেয়ে ভাল পারফর্ম করে?


17

একটি ছোট পাঠ্য শ্রেণিবিন্যাসের সমস্যায় যা আমি দেখছিলাম, নাইভ বায়েস একটি এসভিএম এর মতো বা তার চেয়েও বেশি পারফরম্যান্স প্রদর্শন করছে এবং আমি খুব বিভ্রান্ত হয়ে পড়েছিলাম।

আমি ভাবছিলাম যে কারণগুলি অন্যগুলির তুলনায় একটি অ্যালগরিদমের জয় সিদ্ধান্ত নেয়। এমন পরিস্থিতি আছে যেখানে এসভিএমগুলির উপর নাইভ বেয়েস ব্যবহার করার কোনও অর্থ নেই? কেউ কি এ বিষয়ে আলোকপাত করতে পারে?


1
একটি সুন্দর এবং প্রাসঙ্গিক টিউটোরিয়াল
q12

উত্তর:


27

প্রদত্ত ডেটাসেটের জন্য সেরা শ্রেণিবদ্ধকরণ পদ্ধতি কোনটি সম্পর্কে কোনও একক উত্তর নেই । প্রদত্ত ডেটাসেটের তুলনায় তুলনামূলক অধ্যয়নের জন্য বিভিন্ন ধরণের শ্রেণিবদ্ধকারীদের সর্বদা বিবেচনা করা উচিত। ডেটাসেটের বৈশিষ্ট্যগুলি দেওয়া, আপনার কিছু সংকেত থাকতে পারে যা কিছু পদ্ধতিতে অগ্রাধিকার দিতে পারে। তবে, সম্ভব হলে সবার সাথে পরীক্ষা করার পরামর্শ দেওয়া হবে।

নাইভ বেয়েস ক্লাসিফায়ার (এনবিসি) এবং সাপোর্ট ভেক্টর মেশিন (এসভিএম) এর প্রতিটি জন্য কার্নেল ফাংশন পছন্দ সহ বিভিন্ন বিকল্প রয়েছে। তারা উভয়ই প্যারামিটার অপ্টিমাইজেশনের প্রতি সংবেদনশীল (যেমন বিভিন্ন পরামিতি নির্বাচন তাদের আউটপুটকে উল্লেখযোগ্যভাবে পরিবর্তন করতে পারে) । সুতরাং, আপনার যদি এমন ফলাফল দেখা যায় যে এনবিসি এসভিএমের চেয়ে ভাল পারফর্ম করছে। এটি কেবলমাত্র নির্বাচিত পরামিতিগুলির ক্ষেত্রেই সত্য। তবে অন্য প্যারামিটার নির্বাচনের জন্য আপনি দেখতে পাবেন যে এসভিএম আরও ভাল পারফর্ম করছে।

সাধারণভাবে, যদি এনবিসিতে স্বাধীনতার অনুমান আপনার ডেটাসেটের ভেরিয়েবল দ্বারা সন্তুষ্ট হয় এবং শ্রেণি ওভারল্যাপিংয়ের ডিগ্রি ছোট হয় (তবে সম্ভাব্য লিনিয়ার সিদ্ধান্তের সীমানা), এনবিসি ভাল অর্জনের প্রত্যাশা করবে। কিছু ডেটাসেটের জন্য, মোড়ক বৈশিষ্ট্য নির্বাচন ব্যবহার করে অপ্টিমাইজেশন সহ, উদাহরণস্বরূপ, এনবিসি অন্যান্য শ্রেণিবদ্ধদের পরাস্ত করতে পারে। এমনকি যদি এটি তুলনামূলক পারফরম্যান্স অর্জন করে তবে এনবিসি এর উচ্চ গতির কারণে আরও আকাঙ্ক্ষিত হবে।

সংক্ষেপে বলতে গেলে, আমাদের কোনও শ্রেণিবদ্ধকরণ পদ্ধতি পছন্দ করা উচিত নয় যদি এটি অন্য প্রসঙ্গে একটি প্রসঙ্গে অন্যদেরকে ছাড়িয়ে যায় কারণ এটি অন্য কোনও ক্ষেত্রে মারাত্মকভাবে ব্যর্থ হতে পারে। ( এই হল স্বাভাবিক ডেটা মাইনিং সমস্যার )।


7
(+1) এটিকে নিখরচায় মধ্যাহ্নের উপপাদ্যও বলা হয় । যদিও আমি প্যারামিটার সংবেদনশীলতার তুলনায় সম্পূর্ণরূপে একমত নই (একক সিদ্ধান্ত গাছ IMHO সবচেয়ে সংবেদনশীল পদ্ধতির মধ্যে একটি), তবে আমাদের এখানে এ সম্পর্কে আলোচনা করা উচিত নয় :)।
স্টিফেন

@ স্টেফেন, আপনার মূল্যবান মন্তব্যের জন্য ধন্যবাদ। মডেলগুলিকে অনুকূলকরণের বিভিন্ন উপায় রয়েছে এবং আমি সম্মত হই যে কোন ক্ষেত্রে কোন মডেলটি সমস্ত ক্ষেত্রে বেশি সংবেদনশীল general বৈশিষ্ট্য নির্বাচনের জন্য, ডিটি, সম্ভবত এনবিসি থেকে কম সংবেদনশীল তবে এটি সাধারণভাবে নাও হতে পারে। আমি আপনার মন্তব্য বিবেচনা করতে উত্তর সম্পাদনা করব এবং আপনি চান, আপনি এটি সম্পাদনা করতে পারেন। অনেক ধন্যবাদ :).
soufanom

3
প্যারামিটার সংবেদনশীলতা সম্পর্কে মন্তব্য করার জন্য +1। এটিও লক্ষণীয় যে এসভিএমগুলিকে আন্ডারপাইং করা তত্ত্বের বেশিরভাগটি একটি নির্দিষ্ট কার্নেলযুক্ত মডেলের ক্ষেত্রে প্রযোজ্য, তাই আপনি হাইপার-প্যারামিটারগুলি (যা করা উচিত এবং সাবধানতার সাথে করা আবশ্যক ) অপ্টিমাইজ করার চেষ্টা করার সাথে সাথে তাত্ত্বিক ভিত্তির বেশিরভাগ আর প্রযোজ্য নয়।
ডিকরান মার্সুপিয়াল
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.