আমি আমার নিজস্ব নাইভ বয়েস ব্যাগ ও ওয়ার্ডস মডেলের প্রোটোটাইপ করছি এবং বৈশিষ্ট্যের সম্ভাব্যতা গণনা করার বিষয়ে আমার একটি প্রশ্ন ছিল।
ধরা যাক আমার দুটি ক্লাস হয়েছে, আমি কেবল স্প্যাম এবং নন-স্প্যাম ব্যবহার করব যেহেতু সবাই এটি ব্যবহার করে। এবং এর উদাহরণ হিসাবে "ভায়াগ্রা" শব্দটি নেওয়া যাক। আমার প্রশিক্ষণ সেটে 10 টি ইমেল রয়েছে, 5 টি স্প্যাম এবং 5 টি স্প্যাম নয়। "ভিওগ্রা" সমস্ত 5 টি স্প্যাম নথিতে উপস্থিত হয়। প্রশিক্ষণের নথির একটিতে এটি 3 বার উপস্থিত হয় (এটি আমার প্রশ্নটি সম্পর্কে) তাই স্প্যামের মোট 7 টি উপস্থিতি এটি। নন-স্প্যাম প্রশিক্ষণ সেটে এটি 1 বার প্রদর্শিত হবে।
আমি যদি পি (ভায়াগ্রা | স্প্যাম) অনুমান করতে চাই তবে এটি কি সহজ:
পি (ভায়াগ্রা | স্প্যাম) = 5 টি স্প্যাম নথিতে ভায়াগ্রা / 5 স্প্যাম নথি মোট = 1 রয়েছে
অন্য কথায়, একটি দস্তাবেজের পরিবর্তে একবারের পরিবর্তে 3 বার ভায়াগ্রা উল্লেখ করা কি আসলেই কিছু যায় আসে না?
সম্পাদনা করুন: এখানে এমন একটি ব্লগ পোস্ট রয়েছে যেখানে লেখক আমার সুনির্দিষ্ট পদ্ধতির ব্যবহার করেছেন: http://ebiquity.umbc.edu/blogger/2010/12/07/naive-bayes-classifier-in-50-lines/
এবং এখানে একটি ব্লগ পোস্টে যেখানে লেখক বলেছেন আছে: P (ভায়াগ্রা | স্প্যাম) = 7 ভায়াগ্রা স্প্যাম উল্লেখ / 8 মোট উল্লেখ http://www.nils-haldenwang.de/computer-science/machine-learning/how-to-apply -naive-বায়েসের-ক্লাসিফায়ার-টু-দস্তাবেজের শ্রেণীবিন্যাস-সমস্যার
এবং তারপরে নীচের উত্তরের একটি উত্তর বলে যে এটি হওয়া উচিত: p (ভায়াগ্রা | স্প্যাম) = via ভায়াগ্রা স্প্যামে উল্লেখ করেছে / স্প্যামে মোট টার্ম গণনা
কেউ কি এমন উত্সের সাথে লিঙ্ক করতে পারেন যা এই সম্পর্কে একটি মতামত দেয়?