নায়েভ বয়েস বোঝা


47

থেকে StatSoft, ইনকর্পোরেটেড (2013), ইলেকট্রনিক পরিসংখ্যান পাঠ্যপুস্তক , "সাদাসিধা বায়েসের ক্লাসিফায়ার" :

এখানে চিত্র বর্ণনা লিখুন

নেভ বেয়েস শ্রেণিবিন্যাসের ধারণাটি প্রদর্শনের জন্য, উপরের চিত্রায় প্রদর্শিত উদাহরণ বিবেচনা করুন। ইঙ্গিত হিসাবে, বস্তুগুলি গ্রীন বা লাল হিসাবে শ্রেণিবদ্ধ করা যেতে পারে। আমার কাজটি হ'ল নতুন কেসগুলি আসার সাথে সাথে শ্রেণিবদ্ধ করা, অর্থাত্ বর্তমানের অবজেক্টের উপর ভিত্তি করে কোন শ্রেণীর লেবেলের সাথে সম্পর্কিত তা সিদ্ধান্ত নিন।

যেহেতু রেডের চেয়ে দ্বিগুণ সবুজ বস্তু রয়েছে তাই এটি বিশ্বাস করা যুক্তিযুক্ত যে একটি নতুন কেস (যা এখনও পর্যবেক্ষণ করা হয়নি) রেডের চেয়ে দ্বিগুণ সদস্যপদ গ্রীন হওয়ার সম্ভাবনা রয়েছে। বায়েশীয় বিশ্লেষণে এই বিশ্বাসটি পূর্ব সম্ভাবনা হিসাবে পরিচিত। পূর্বের সম্ভাবনাগুলি পূর্বের অভিজ্ঞতার ভিত্তিতে হয়, এক্ষেত্রে গ্রীন এবং রেড সামগ্রীর শতাংশ এবং প্রায়শই ফলাফলগুলির পূর্বাভাস দেওয়ার আগে তারা প্রকৃত ঘটনা ঘটে।

সুতরাং, আমরা লিখতে পারি:

এখানে চিত্র বর্ণনা লিখুন

যেহেতু মোট objects০ টি অবজেক্ট রয়েছে যার মধ্যে ৪ টি গ্রীন এবং ২০ টি রেড, শ্রেণি সদস্যতার জন্য আমাদের পূর্বের সম্ভাবনাগুলি হ'ল:

এখানে চিত্র বর্ণনা লিখুন এখানে চিত্র বর্ণনা লিখুন

আমাদের পূর্বের সম্ভাবনাটি তৈরি করে, আমরা এখন একটি নতুন অবজেক্ট (হোয়াইট সার্কেল) শ্রেণিবদ্ধ করার জন্য প্রস্তুত। যেহেতু অবজেক্টগুলি ভাল ক্লাস্টারযুক্ত তাই এটি ধরে নেওয়া যুক্তিসঙ্গত যে এক্স এর আশেপাশে যত বেশি গ্রিন (বা রেড) অবজেক্ট রয়েছে, নতুন বর্ণগুলি সেই নির্দিষ্ট রঙেরই বেশি সম্ভবত। এই সম্ভাবনাটি পরিমাপ করার জন্য, আমরা এক্স এর আশেপাশে একটি বৃত্ত আঁকি যা তাদের শ্রেণীর লেবেল নির্বিশেষে বিন্দুগুলির একটি সংখ্যা (একটি অগ্রাধিকার হিসাবে নির্বাচিত হতে) অন্তর্ভুক্ত করে। তারপরে আমরা প্রতিটি শ্রেণীর লেবেল সম্পর্কিত বৃত্তের পয়েন্টগুলির সংখ্যা গণনা করি। এটি থেকে আমরা সম্ভাবনাটি গণনা করি:

এখানে চিত্র বর্ণনা লিখুন

উপরের চিত্রটি থেকে, এটি স্পষ্ট যে X প্রদত্ত GREEN এর সম্ভাবনা কম দেওয়া রেড রেড দেওয়া সম্ভাবনার চেয়ে ছোট, কারণ বৃত্তটি 1 টি গ্রেন অবজেক্ট এবং 3 টি রেড রয়েছে omp এভাবে:

এখানে চিত্র বর্ণনা লিখুন

এখানে চিত্র বর্ণনা লিখুন

যদিও পূর্বের সম্ভাব্যতাগুলি ইঙ্গিত করে যে এক্স গ্রিনের হতে পারে (রেডের তুলনায় আরও দ্বিগুণ গ্রীন রয়েছে) সম্ভাবনা অন্যথায় নির্দেশ করে; X এর শ্রেণীর সদস্যতা লাল হয় (গ্রেনের তুলনায় X এর আশেপাশে আরও বেশি রেড অবজেক্ট থাকে)। বায়েশীয় বিশ্লেষণে, তথাকথিত বায়েসের নিয়ম (রেভ। টমাস বেয়েস 1702-1761 এর নাম অনুসারে) ব্যবহার করে উত্তরোত্তর সম্ভাবনা তৈরি করার জন্য তথ্যের উভয় উত্স, অর্থাৎ পূর্ব এবং সম্ভাবনা উভয়কে একত্রিত করে চূড়ান্ত শ্রেণিবিন্যাস উত্পাদিত হয়।

এখানে চিত্র বর্ণনা লিখুন

পরিশেষে, আমরা এক্সটিকে রেড হিসাবে শ্রেণিবদ্ধ করি যেহেতু এর শ্রেণীর সদস্যপদ বৃহত্তম উত্তরোত্তর সম্ভাবনা অর্জন করে।

আমার গণিত বোঝার অসুবিধাটি এখানেই আসে।

এখানে চিত্র বর্ণনা লিখুন

p (Cj | x1, x2, x ..., xd) ক্লাসের সদস্যপদের উত্তরোত্তর সম্ভাবনা, অর্থাত, এক্স সিজে-র অন্তর্ভুক্ত হওয়ার সম্ভাবনা তবে কেন এটি এভাবে লিখবেন?

সম্ভাবনা গণনা করছেন?

এখানে চিত্র বর্ণনা লিখুন

উত্তরোত্তর সম্ভাবনা?

এখানে চিত্র বর্ণনা লিখুন

আমি কখনই গণিত গ্রহণ করি নি, তবে নিষ্পাপ বেয়েস সম্পর্কে আমার বোঝা ঠিক আছে আমি যখন মনে করি এই পচনশীল পদ্ধতিগুলি আসে তখন আমাকে বিভ্রান্ত করে। কেউ কি এই পদ্ধতিগুলিকে কল্পনা করতে এবং কীভাবে একটি বোধগম্যভাবে গণিতটি লিখতে সহায়তা করতে পারেন?


12
(+1) আপনি যে প্রশ্নটি উত্থাপন করেছেন তাতে আমি সত্যিই সতর্কতা ও পরিষ্কার পদ্ধতিটির প্রশংসা করি।
Rolando2

2
@ রোল্যান্ডো ২: সমস্ত পরিসংখ্যান এবং এই প্রশ্নের প্রায় সমস্ত পাঠ্যই statsoft.com/textbook/naive-bayes-classifier
ফ্রাঙ্ক ডারননকোর্ট

অন্যের লিখিত উপাদানকে কীভাবে রেফারেন্স করবেন সে অনুযায়ী দয়া করে এই পোস্টটি অন্য কোথাও থেকে স্পষ্ট করে গুণিতকরণ করতে সম্পাদনা করুন ।
স্কর্চচি - মনিকা পুনরায় ইনস্টল করুন

স্ট্যাক এক্সচেঞ্জ সাইটগুলিতে সরাসরি কোটেশনগুলির যথাযথ অ্যাট্রিবিউশনের প্রয়োজনীয়তা ছিল। যাইহোক, বাদ দেওয়া সহজেই সংশোধন করা হয়; এবং আমি এটা করেছি। আপনার অ্যাকাউন্ট মোছার দরকার নেই - দয়া করে পুনর্বিবেচনা করুন।
স্কোর্টচি - মনিকা পুনরায় ইনস্টল করুন

উত্তর:


50

আমি শুরু থেকেই পুরো নাইভ বয়েস প্রক্রিয়াটি চালাচ্ছি, যেহেতু আপনি কোথায় স্তব্ধ হয়ে গেছেন তা আমার পক্ষে সম্পূর্ণ পরিষ্কার নয়।

আমরা সম্ভাবনা যে একটি নতুন দৃষ্টান্ত প্রতিটি বর্গ জন্যে খুঁজতে চান: পি(একটিগুলিগুলি|একটিটিতোমার দর্শন লগ করাR1,একটিটিতোমার দর্শন লগ করাR2,,একটিটিতোমার দর্শন লগ করাRএন )। তারপরে আমরা প্রতিটি শ্রেণীর জন্য সেই সম্ভাবনাটি গণনা করি এবং খুব সম্ভবত বর্গ নির্বাচন করি। সমস্যাটি হ'ল আমাদের সাধারণত সেই সম্ভাবনা থাকে না। তবে বয়েসের উপপাদ্য আমাদের সেই সমীকরণটিকে আরও ট্র্যাকটেবল আকারে আবারও লিখতে দেয়।

বেয়েসের থিম কেবল

পি(একজন|B ইংরেজী বর্ণমালার দ্বিতীয় অক্ষর)=পি(B ইংরেজী বর্ণমালার দ্বিতীয় অক্ষর|একজন)পি(একজন)পি(B ইংরেজী বর্ণমালার দ্বিতীয় অক্ষর)
বা আমাদের সমস্যা পরিপ্রেক্ষিতে:
পি(একটিগুলিগুলি|একটিটিতোমার দর্শন লগ করাRগুলি)=পি(একটিটিতোমার দর্শন লগ করাRগুলি|একটিগুলিগুলি)পি(একটিগুলিগুলি)পি(একটিটিতোমার দর্শন লগ করাRগুলি)

পি(একটিটিতোমার দর্শন লগ করাRগুলি)পি(একটিগুলিগুলি|একটিটিতোমার দর্শন লগ করাRগুলি)একটিগুলিগুলিপি(একটিটিতোমার দর্শন লগ করাRগুলি)একটিগুলিগুলি

পি(একটিগুলিগুলি|একটিটিতোমার দর্শন লগ করাRগুলি)αপি(একটিটিতোমার দর্শন লগ করাRগুলি|একটিগুলিগুলি)পি(একটিগুলিগুলি)

পি(একটিগুলিগুলি)

পি(একটিটিতোমার দর্শন লগ করাRগুলি|একটিগুলিগুলি)পি(একটিটিতোমার দর্শন লগ করাR1,একটিটিতোমার দর্শন লগ করাR2,,একটিটিতোমার দর্শন লগ করাRএন|একটিগুলিগুলি)

পি(একটিটিতোমার দর্শন লগ করাR1,একটিটিতোমার দর্শন লগ করাR2,,একটিটিতোমার দর্শন লগ করাRএন|একটিগুলিগুলি)=Πআমিপি(একটিটিতোমার দর্শন লগ করাRআমি|একটিগুলিগুলি)

পৃথক উদাহরণ ডেটা

উদাহরণ: শ্রেণিকক্ষে প্রশিক্ষণ দেওয়া

শ্রেণিবদ্ধ প্রশিক্ষণ দেওয়ার জন্য, আমরা বিভিন্ন পয়েন্টের সাবসেট গণনা করি এবং পূর্ব এবং শর্তসাপেক্ষ সম্ভাব্যতাগুলি গণনা করতে সেগুলি ব্যবহার করি।

পি(একটিগুলিগুলি=Rএন)=4060=2/3 এবং পি(একটিগুলিগুলি=R)=2060=1/3

একটিটিতোমার দর্শন লগ করাR1একটিটিতোমার দর্শন লগ করাR2

  • পি(একটিটিতোমার দর্শন লগ করাR1=একজন|একটিগুলিগুলি=R)
  • পি(একটিটিতোমার দর্শন লগ করাR1=B ইংরেজী বর্ণমালার দ্বিতীয় অক্ষর|একটিগুলিগুলি=R)
  • পি(একটিটিতোমার দর্শন লগ করাR1=একজন|একটিগুলিগুলি=Rএন)
  • P(feature1=B|class=green)
  • P(feature2=X|class=red)
  • P(feature2=Y|class=red)
  • P(feature2=X|class=green)
  • পি(একটিটিতোমার দর্শন লগ করাR2=ওয়াই|একটিগুলিগুলি=Rএন)
  • (যদি এটি সুস্পষ্ট না হয় তবে বৈশিষ্ট্য-মান এবং শ্রেণীর সমস্ত সম্ভাব্য জোড়া)

পি(একটিটিতোমার দর্শন লগ করাR1=একজন|একটিগুলিগুলি=R)একটিটিতোমার দর্শন লগ করাR1পি(একটিটিতোমার দর্শন লগ করাR1=একজন|একটিগুলিগুলি=R)=20/20=1পি(একটিটিতোমার দর্শন লগ করাR1|একটিগুলিগুলি=R)=0/20=0পি(একটিটিতোমার দর্শন লগ করাR1=একজন|একটিগুলিগুলি=Rএন)=5/40=1/8পি(একটিটিতোমার দর্শন লগ করাR1=B ইংরেজী বর্ণমালার দ্বিতীয় অক্ষর|একটিগুলিগুলি=Rএন)=35/40=7/8একটিটিতোমার দর্শন লগ করাR2

  • পি(একটিটিতোমার দর্শন লগ করাR1=একজন|একটিগুলিগুলি=R)=1
  • পি(একটিটিতোমার দর্শন লগ করাR1=B ইংরেজী বর্ণমালার দ্বিতীয় অক্ষর|একটিগুলিগুলি=R)=0
  • পি(একটিটিতোমার দর্শন লগ করাR1=একজন|একটিগুলিগুলি=Rএন)=1/8
  • পি(একটিটিতোমার দর্শন লগ করাR1=B ইংরেজী বর্ণমালার দ্বিতীয় অক্ষর|একটিগুলিগুলি=Rএন)=7/8
  • পি(একটিটিতোমার দর্শন লগ করাR2=এক্স|একটিগুলিগুলি=R)=3/10
  • পি(একটিটিতোমার দর্শন লগ করাR2=ওয়াই|একটিগুলিগুলি=R)=7/10
  • পি(একটিটিতোমার দর্শন লগ করাR2=এক্স|একটিগুলিগুলি=Rএন)=8/10
  • পি(একটিটিতোমার দর্শন লগ করাR2=ওয়াই|একটিগুলিগুলি=Rএন)=2/10

এই দশটি সম্ভাব্যতা (দুটি প্রিয়ার প্লাস আট কন্ডিশনাল) আমাদের মডেল

একটি নতুন উদাহরণ শ্রেণিবদ্ধ করা

একটিটিতোমার দর্শন লগ করাR1একটিটিতোমার দর্শন লগ করাR2

পি(একটিগুলিগুলি=R|এক্সএকটিমিপি)αপি(একটিগুলিগুলি=R)পি(একটিটিতোমার দর্শন লগ করাR1=একজন|একটিগুলিগুলি=R)পি(একটিটিতোমার দর্শন লগ করাR2=ওয়াই|একটিগুলিগুলি=R)

পি(একটিগুলিগুলি=R|এক্সএকটিমিপি)α131710=730
পি(একটিগুলিগুলি=Rএন|এক্সএকটিমিপি)αপি(একটিগুলিগুলি=Rএন)পি(একটিটিতোমার দর্শন লগ করাR1=একজন|একটিগুলিগুলি=Rএন)পি(একটিটিতোমার দর্শন লগ করাR2=ওয়াই|একটিগুলিগুলি=Rএন)

2/302/10

নোট

পি(একটিটিতোমার দর্শন লগ করাR=বনামএকটিতোমার দর্শন লগ করা|একটিগুলিগুলি)প্রতিটি শ্রেণীর জন্য উপযুক্ত গড় এবং বৈকল্পিক প্লাগ ইন করে। আপনার বিতরণের বিবরণগুলির উপর নির্ভর করে অন্যান্য বিতরণগুলি আরও উপযুক্ত হতে পারে তবে গাউসিয়ান একটি শালীন সূচনা পয়েন্ট হতে পারে।

আমি DARPA ডেটা সেটটির সাথে খুব বেশি পরিচিত নই তবে আপনি মূলত একই জিনিসটি করতেন। আপনি সম্ভবত পি (আক্রমণ = সত্য | পরিষেবা = আঙুল), পি (আক্রমণ = মিথ্যা | পরিষেবা = আঙুল), পি (আক্রমণ = সত্য | পরিষেবা = এফটিপি) ইত্যাদির মতো কিছু গণনা শেষ করবেন এবং তারপরে এগুলিকে একত্রিত করুন উদাহরণ হিসাবে একই উপায়। পার্শ্ব নোট হিসাবে, কৌতূহলের একটি অংশটি হ'ল ভাল বৈশিষ্ট্য নিয়ে আসা। উত্স আইপি, উদাহরণস্বরূপ, সম্ভবত হতাশভাবে বিরল হতে চলেছে - আপনার সম্ভবত প্রদত্ত আইপির জন্য একটি বা দুটি উদাহরণ থাকবে। আপনি যদি আইপি জিওলোক্যাট করেন এবং পরিবর্তে "উত্স_ইন_সাম_বিল্ডিং_এস_ডেস্ট (সত্য / মিথ্যা)" বা কোনও বৈশিষ্ট্য হিসাবে ব্যবহার করেন তবে আপনি আরও ভাল করতে পারেন।

আমি আশা করি এটি আরও সাহায্য করে। কোনও কিছুর ব্যাখ্যা দরকার হলে আমি আবার চেষ্টা করে খুশি হব!


3
অবশ্যই। যদি এটি আপনার সাথে ঠিক থাকে তবে আমি আমার উত্তরটি সম্পাদনা করতে যাচ্ছি যাতে আরও জায়গা থাকে (এবং আমি লটেক্স জিনিসগুলি করতে পারি)।
ম্যাট ক্রাউস

1
আমি প্রশিক্ষণ এবং পরীক্ষার অংশগুলি প্রসারিত করেছি এবং সেগুলিকে তাদের নিজস্ব বিভাগে পরিণত করেছি। প্রথম দম্পতি অনুচ্ছেদ একই ...
ম্যাট ক্রাউস

2
ম্যাট, আমি নাইভ বেয়েসের যে কোনও পাঠ্য বইয়ের সংজ্ঞাটি পেয়েছি তার থেকে এটি অনেক পরিষ্কার। এই ওয়েবসাইটে আমি এখন পর্যন্ত যে কোনও প্রশ্নের উত্তর পেয়েছি এটি সম্ভবত সেরা উত্তর।
ঝুবার্ব

@ বারকান, ধন্যবাদ; এটি আপনারা খুব ধরণের (যদিও আরও অনেক দুর্দান্ত উত্তরও রয়েছে!) যদি আপনার কোনও পরামর্শ পাওয়া যায় তবে আমি তাদের সম্বোধন করার চেষ্টা করে খুশি হব!
ম্যাট ক্রাউস

+ 1 এবং স্ট্যাকওভারফ্লো.com/ প্রশ্নগুলি / 10059594/… যেখানে একই ধরণের ব্যাখ্যা রয়েছে
ড্রে

6

ডিপি(সি|ডি) )হয় সমানুপাতিককরতেসম্ভাবনাপি(ডি|সি

পি(সি|ডি)=পি(ডি|সি)পি(সি)পি(ডি), =1,2,...
পি(সি1|ডি)পি(সি2|ডি),...পি(সি|ডি)পি(ডি)পি(ডি|সি)পি(সি)পি(ডি|সি)পি(সি)পি(ডি)সিপি(সি|ডি)পি(ডি|সি) পি(সি)
পি(সি|ডি)αপি(ডি|সি)পি(সি)
ডি(এক্স1,এক্স2,...,এক্স)সি)
পি(ডি|সি)=পি(এক্স1,এক্স2,...,এক্স|সি)=পি(এক্স1|সি)পি(এক্স2|সি)পি(এক্স|সি)=Π1=1পি(এক্সআমি|সি)

1

নিষ্পাপ বেয়েস মডেলের পিছনে মূল অনুমানটি হ'ল প্রতিটি বৈশিষ্ট্য (x_i) শর্ত অনুসারে শ্রেণীর প্রদত্ত অন্যান্য সমস্ত বৈশিষ্ট্যের চেয়ে স্বতন্ত্র। এই অনুমান যা আমাদের একটি সহজ পণ্য হিসাবে সম্ভাবনা লিখতে দেয় (যেমন আপনি দেখিয়েছেন)।

নিরীহ বেইস মডেলকে অনুশীলনে ভাল করতে সহায়তা করে এটি। প্রশিক্ষণের পর্বটি বিবেচনা করুন: আমরা যদি এই অনুমানটি না করি, তবে শেখা একটি জটিল, উচ্চ মাত্রিক বন্টন: পি (এক্স 1, এক্স 2, ..., এক্সএন, সি) অন্তর্ভুক্ত করবে যেখানে সমস্ত বৈশিষ্ট্য সম্মিলিতভাবে বিতরণ করা হয়েছে। পরিবর্তে, আমরা পি (এক্স 1, সি), পি (এক্স 2, সি), ..., পি (এক্সএন, সি) অনুমান করে প্রশিক্ষণ দিতে পারি, যেহেতু মান সি দ্বারা অন্যান্য সমস্ত বৈশিষ্ট্যের মান অপ্রাসঙ্গিক হয় (তারা সরবরাহ করে) x_i) সম্পর্কে কোনও অতিরিক্ত তথ্য নেই।

আমি এটি দেখতে (স্ট্যান্ডার্ড গ্রাফিকাল মডেল স্বরলিপি ছাড়াও) ভাল উপায় জানি না, তবে এটি আরও কংক্রিট করার জন্য আপনি একটি নেভ বেইস মডেল শিখতে কিছু কোড লিখতে পারেন ( আপনি এখানে কিছু উদাহরণের ডেটা ধরতে পারেন )। ট্রেন এবং পরীক্ষা। এখন শর্তসাপেক্ষে স্বাধীনতা অনুমানটি ছেড়ে দিন এবং কোডটি সংশোধন করুন। ট্রেন, পরীক্ষা এবং আগের মডেলের সাথে তুলনা করুন।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.