সরলতার স্বার্থে, যাক আমি স্প্যাম / নন-স্প্যাম ইমেলের ক্লাসিক উদাহরণ নিয়ে কাজ করছি on
আমার 20000 ইমেলের সেট রয়েছে। এর মধ্যে, আমি জানি যে 2000 টি স্প্যাম তবে নন-স্প্যাম ইমেলের কোনও উদাহরণ আমার কাছে নেই। বাকি 18000 টি স্প্যাম কিনা তা আমি ভবিষ্যদ্বাণী করতে চাই। আদর্শভাবে, আমি যে ফলাফলটি সন্ধান করছি তা হ'ল ইমেলটি স্প্যাম a এমন একটি সম্ভাবনা (বা একটি পি-মান)।
এই পরিস্থিতিতে একটি বুদ্ধিমান ভবিষ্যদ্বাণী করতে আমি কোন অ্যালগরিদম (গুলি) ব্যবহার করতে পারি?
এই মুহুর্তে, আমি একটি দূরত্ব ভিত্তিক পদ্ধতির কথা ভাবছি যা আমাকে জানবে যে কোনও পরিচিত স্প্যাম ইমেলের সাথে আমার ইমেলটি কতটা সমান। আমার কাছে কী বিকল্প আছে?
আরও সাধারণভাবে, আমি কী তত্ত্বাবধানে শেখার পদ্ধতি ব্যবহার করতে পারি, বা তা করার জন্য আমার প্রশিক্ষণে অগত্যা নেতিবাচক কেসগুলি থাকা দরকার? আমি কি নিরীক্ষণযোগ্য শেখার পদ্ধতির মধ্যে সীমাবদ্ধ? আধা তত্ত্বাবধান পদ্ধতি সম্পর্কে কী?