কোনও নায়েভ বেয়েস ক্লাসিফায়ার (আমরা যখন এর পরিবর্তে অজানা বৈশিষ্ট্যগুলি ফেলে দিতে পারি) তখন কেন আমরা ধূমপানের সাথে বিরক্ত করি তা জানতে চাই।
আপনার প্রশ্নের উত্তরটি হ'ল: সমস্ত শ্রেণিতে সমস্ত শব্দ অজানা থাকতে হবে না ।
দুটি ক্লাস আছে বলুন এম এবং এন সঙ্গে বৈশিষ্ট্য একটি , বি এবং সি নিম্নরূপ:
এম: এ = 3, বি = 1, সি = 0
( এম ক্লাসে , এ 3 বার এবং খ একবার উপস্থিত হয়)
এন: এ = 0, বি = 1, সি = 3
(ক্লাস ইন এন , সি 3 বার এবং মনে হচ্ছে, বি শুধুমাত্র একবার)
আসুন দেখে নেওয়া যাক আপনি যখন শূন্য বারের মতো প্রদর্শিত বৈশিষ্ট্যগুলি ফেলে দেন তখন কী হয় ।
ক) যে কোনও ক্লাসে জিরো টাইমস উপস্থিত বৈশিষ্ট্যগুলি ফেলে দিন
আপনি যদি এ এবং সি বৈশিষ্ট্যগুলি এড়িয়ে যান তবে সেগুলি ক্লাসগুলির যে কোনও একটিতে শূন্য বার প্রদর্শিত হয় , তবে আপনার সাথে ডকুমেন্টগুলি শ্রেণিবদ্ধ করার জন্য কেবল বৈশিষ্ট্য বি দিয়ে বাকি থাকবে ।
এবং সেই তথ্য হারানো একটি খারাপ জিনিস যা আপনি নীচে দেখতে পাবেন!
আপনি যদি পরীক্ষার নথিটি নিম্নরূপ উপস্থাপন করেন তবে:
বি = 1, সি = 3
(এতে একবার বি এবং সি তিনবার রয়েছে)
এখন, আপনি যেহেতু A এবং B বৈশিষ্ট্যগুলি বাতিল করেছেন তাই আপনি উপরের নথিটি ক্লাস এম বা ক্লাস এন এর অন্তর্গত কিনা তা আপনি বলতে পারবেন না ।
সুতরাং, কোনও বৈশিষ্ট্যের তথ্য হারাতে খারাপ জিনিস!
খ) সমস্ত ক্লাসে জিরো টাইমস প্রদর্শিত বৈশিষ্ট্যগুলি ফেলে দিন
এটা খারিজ করে আপনি এই সমস্যার কাছাকাছি পেতে কি সম্ভব শুধুমাত্র ঐ বৈশিষ্ট্য প্রদর্শিত শূন্য মধ্যে বার সব ক্লাস?
না, কারণ এটি তার নিজস্ব সমস্যা তৈরি করবে!
নিম্নলিখিত পরীক্ষার নথিতে আমরা যদি তা করি তবে কি হবে তা চিত্রিত করে:
এ = 3, বি = 1, সি = 1
সম্ভাব্যতা এম এবং এন উভয় হয়ে শূন্য (কারণ আমরা দূরে থাকা শূন্য সম্ভাব্যতা নিক্ষেপ করা হয়নি একজন ক্লাসে এন এবং শূন্য সম্ভাব্যতা সি ক্লাসে এম )।
গ) কিছুই ফেলে দেবেন না - পরিবর্তে স্মুথিং ব্যবহার করুন
স্মুথিং আপনাকে উপরের দুটি নথিকে সঠিকভাবে শ্রেণিবদ্ধ করতে দেয় কারণ:
- আপনি যেমন ক্লাসে গণনা তথ্য হারাবেন না যেখানে এই জাতীয় তথ্য পাওয়া যায় এবং
- আপনার শূন্যের সাথে লড়াই করতে হবে না।
অনুশীলনে নাইভ বেয়েস ক্লাসিফায়ার্স
এনএলটিকে নায়েভ বয়েস শ্রেণিবদ্ধকারী ক্লাসগুলির যে কোনও একটিতে শূন্যের গুণাবলীযুক্ত বৈশিষ্ট্যগুলি ফেলে দিতেন।
এটি একটি হার্ড ইএম পদ্ধতি (যেখানে শ্রেণিবদ্ধকারী খুব অল্প প্রশিক্ষণের ডেটা থেকে বুটস্ট্র্যাপ করা হয়) ব্যবহার করে প্রশিক্ষিত হওয়ার সময় এটি খারাপভাবে সঞ্চালন করতে ব্যবহৃত হত।