নাইভ বয়েস বৈশিষ্ট্যগুলির বৈশিষ্ট্য: আমি কি শব্দগুলিকে দ্বিগুণ করব?


12

আমি আমার নিজস্ব নাইভ বয়েস ব্যাগ ও ওয়ার্ডস মডেলের প্রোটোটাইপ করছি এবং বৈশিষ্ট্যের সম্ভাব্যতা গণনা করার বিষয়ে আমার একটি প্রশ্ন ছিল।

ধরা যাক আমার দুটি ক্লাস হয়েছে, আমি কেবল স্প্যাম এবং নন-স্প্যাম ব্যবহার করব যেহেতু সবাই এটি ব্যবহার করে। এবং এর উদাহরণ হিসাবে "ভায়াগ্রা" শব্দটি নেওয়া যাক। আমার প্রশিক্ষণ সেটে 10 টি ইমেল রয়েছে, 5 টি স্প্যাম এবং 5 টি স্প্যাম নয়। "ভিওগ্রা" সমস্ত 5 টি স্প্যাম নথিতে উপস্থিত হয়। প্রশিক্ষণের নথির একটিতে এটি 3 বার উপস্থিত হয় (এটি আমার প্রশ্নটি সম্পর্কে) তাই স্প্যামের মোট 7 টি উপস্থিতি এটি। নন-স্প্যাম প্রশিক্ষণ সেটে এটি 1 বার প্রদর্শিত হবে।

আমি যদি পি (ভায়াগ্রা | স্প্যাম) অনুমান করতে চাই তবে এটি কি সহজ:

পি (ভায়াগ্রা | স্প্যাম) = 5 টি স্প্যাম নথিতে ভায়াগ্রা / 5 স্প্যাম নথি মোট = 1 রয়েছে

অন্য কথায়, একটি দস্তাবেজের পরিবর্তে একবারের পরিবর্তে 3 বার ভায়াগ্রা উল্লেখ করা কি আসলেই কিছু যায় আসে না?


সম্পাদনা করুন: এখানে এমন একটি ব্লগ পোস্ট রয়েছে যেখানে লেখক আমার সুনির্দিষ্ট পদ্ধতির ব্যবহার করেছেন: http://ebiquity.umbc.edu/blogger/2010/12/07/naive-bayes-classifier-in-50-lines/

এবং এখানে একটি ব্লগ পোস্টে যেখানে লেখক বলেছেন আছে: P (ভায়াগ্রা | স্প্যাম) = 7 ভায়াগ্রা স্প্যাম উল্লেখ / 8 মোট উল্লেখ http://www.nils-haldenwang.de/computer-science/machine-learning/how-to-apply -naive-বায়েসের-ক্লাসিফায়ার-টু-দস্তাবেজের শ্রেণীবিন্যাস-সমস্যার

এবং তারপরে নীচের উত্তরের একটি উত্তর বলে যে এটি হওয়া উচিত: p (ভায়াগ্রা | স্প্যাম) = via ভায়াগ্রা স্প্যামে উল্লেখ করেছে / স্প্যামে মোট টার্ম গণনা

কেউ কি এমন উত্সের সাথে লিঙ্ক করতে পারেন যা এই সম্পর্কে একটি মতামত দেয়?

উত্তর:


4

অন্য কথায়, একটি দস্তাবেজের পরিবর্তে একবারের পরিবর্তে 3 বার ভায়াগ্রা উল্লেখ করা কি আসলেই কিছু যায় আসে না?

এটা ব্যাপার। মাল্টিনমিয়াল সাদাসিধা বায়েসের মডেল , একটি টোকেন প্রতিটি সংঘটন একাউন্টে লাগে যেহেতু বের্নুলির সাদাসিধা বায়েসের মডেল না (অর্থাত আধুনিক মডেল জন্য, "ভায়াগ্রা" এর 3 ঘটনার "ভায়াগ্রা" এর 1 টি সংঘটন হিসাবে একই)।

এখানে দুটি চিত্রের পাশাপাশি from 1} থেকে তুলনা টেবিল রয়েছে:

এখানে চিত্র বর্ণনা লিখুন

এখানে চিত্র বর্ণনা লিখুন

এখানে চিত্র বর্ণনা লিখুন

{1 text সুস্পষ্টভাবে পাঠ্য শ্রেণীবদ্ধের জন্য নাইভ বেয়েস, পাশাপাশি বহুজাতিক নেভিগ বেয়েস মডেল এবং বের্নোলি নায়েভ বেয়েস মডেলকে পরিচয় করিয়ে দেয়।


তথ্যসূত্র:

  • {1} ক্রিস্টোফার ডি ম্যানিং, প্রভাকর রাঘাওয়ান এবং হিনরিচ স্কটজি। " তথ্য পুনরুদ্ধারের ভূমিকা। " ২০০৯, অধ্যায় ১৩ টি পাঠ্যের শ্রেণিবদ্ধকরণ এবং নাইভ বেয়েস

1

এটি আপনার প্রয়োগ করা নির্দিষ্ট নিষ্পাপ মডেলের উপর নির্ভর করে। সাধারণভাবে, পাঠ্য শ্রেণিবিন্যাসের জন্য, আপনি পদগুলির পুনরাবৃত্তি বিবেচনা করতে চান না, সুতরাং উত্তরটি হ্যাঁ।

অন্য বিষয়টি আপনি ডকুমেন্ট ইভেন্ট স্পেসের উপর ভিত্তি করে সম্ভাব্যতাটি বিবেচনা করছেন। আপনি শব্দ শব্দ স্থানের উপর ভিত্তি করে এটিও করতে পারেন:

পি (ভায়াগ্রা | স্প্যাম) = ক্লাসে স্প্যামের ৫ বার স্প্যাম / ক্লাসে ৫০ টি শর্ত

আপনার এই [কাগজ] তে প্রচুর তথ্য রয়েছে ( http://echo.edres.org:8080/betsy/mccallum1.pdf )


0

আমি মনে করি এটি পি (ভায়াগ্রা | স্প্যাম) দ্বারা আপনাকে কী বোঝাতে চাইছে এবং কীভাবে আপনি ডেটা মডেলিং করছেন তার উপর এটি নির্ভর করে।

যেমনটি লেখা হয়েছে, আমি আপনার অর্থটি ব্যাখ্যা করব 'কোনও বার্তায় কমপক্ষে একবার ভায়াগ্রা শব্দের উল্লেখ হওয়ার সম্ভাবনা, এই বার্তাটি স্প্যাম হিসাবে দেওয়া হয়েছে'। সেক্ষেত্রে, হ্যাঁ, তিনবার ভায়াগ্রা উল্লেখ করা একটি নথির কোনও প্রভাব নেই। আপনি এমন একটি মডেল সংজ্ঞায়িত করেছেন যা এই ধরণের সত্যগুলিতে মনোযোগ দেয় না।

অবশ্যই, আপনি একটি ভিন্ন মডেল থাকতে পারে। উদাহরণস্বরূপ, ভায়াগ্রা বাইনারি ভেরিয়েবল (উপস্থিত / অনুপস্থিত) দ্বারা প্রতিনিধিত্ব করার পরিবর্তে, বার্তায় শব্দটি প্রদর্শিত সময়ের সংখ্যা গণনা উপস্থাপন করতে পারে। সেক্ষেত্রে, আপনার কাঁচা ডেটা থেকে আপনি এরকম কোনও কিছুর অভিজ্ঞতাগত ফ্রিকোয়েন্সি অনুমান করতে পারবেন

পি (ভায়াগ্রা = 0 | স্প্যাম) = 0

পি (ভায়াগ্রা = 1 | স্প্যাম) = 4/5

পি (ভায়াগ্রা = 2 | স্প্যাম) = 0

পি (ভায়াগ্রা = 3 | স্প্যাম) = 1/5

প্রভৃতি

আমি বলছি না এটি করার আরও ভাল উপায়। আমি কেবলমাত্র একটি বিকল্প পরিস্থিতির বর্ণনা দিচ্ছি যেখানে আপনার অন্তর্নিহিততাটি তিনবার উল্লিখিত ভায়াগ্রা দেখা প্রাসঙ্গিক বলে মনে হয়।

আরও ব্যবহারিক উদাহরণ হতে পারে 'টার্ম ফ্রিকোয়েন্সি – বিপরীত ডকুমেন্ট ফ্রিকোয়েন্সি', যা এমন একটি পদ্ধতি যা কোনও নথিতে শব্দের ফ্রিকোয়েন্সিটির দিকে অনেক মনোযোগ দেয়।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.