নায়েভ বেয়েস কীভাবে অবিচ্ছিন্ন চলকগুলির সাথে কাজ করে?


14

আমার (খুব বেসিক) বোঝার জন্য, নাইভ বেইস প্রশিক্ষণের ডেটাতে প্রতিটি বৈশিষ্ট্যের শ্রেণিকালীন ফ্রিকোয়েন্সিগুলির উপর ভিত্তি করে সম্ভাব্যতাগুলি অনুমান করে। তবে এটি কীভাবে অবিচ্ছিন্ন পরিবর্তনশীলগুলির ফ্রিকোয়েন্সি গণনা করে? এবং পূর্বাভাস দেওয়ার সময়, এটি কীভাবে একটি নতুন পর্যবেক্ষণকে শ্রেণিবদ্ধ করে যা প্রশিক্ষণ সংস্থায় কোনও পর্যবেক্ষণের সমান মূল্যমান নাও থাকতে পারে? এটি কোনও ধরণের দূরত্ব পরিমাপ ব্যবহার করে বা 1NN সন্ধান করে?


বিযুক্ত এবং অবিচ্ছিন্ন
নায়েভ

উত্তর:


10

নিষ্পাপ বায়েস শ্রেণিবদ্ধকরণ (এনবিসি) করার বিভিন্ন উপায় রয়েছে। এনবিসি-তে একটি সাধারণ কৌশল হ'ল বৈশিষ্ট্য (পরিবর্তনশীল) মানগুলিকে চতুর্দিকে পুনরুদ্ধার করা, যেমন 25 তম পার্সেন্টাইলের চেয়ে কম মানকে 1, 25 তম থেকে 50 তম এ 2, 50 তম থেকে 75 তম এ 3 নির্ধারিত করা হয় এবং 75 তম পার্সেন্টাইল a 4 এর চেয়ে বড় হয়। সুতরাং একটি একক বস্তু বিন Q1, Q2, Q3, বা Q4 একটি গণনা জমা দেবে। গণনাগুলি কেবল এই শ্রেণিবিন্যাসমূলক বিনগুলিতে করা হয়। বিন গণনা (সম্ভাব্যতা) তারপরে নমুনার সংখ্যার ভিত্তিতে তৈরি হয় যার পরিবর্তনশীল মান একটি প্রদত্ত বিনের মধ্যে পড়ে। উদাহরণস্বরূপ, যদি এক্স 1 বৈশিষ্ট্যটির জন্য কোনও সামগ্রীর সেটগুলির খুব বেশি মান থাকে, তবে এটি এক্স 1 এর Q4 এর জন্য বিনটিতে প্রচুর পরিমাণে গণনা করবে। অন্যদিকে, যদি অন্য কোনও সামগ্রীর বৈশিষ্ট্য এক্স 1 এর মান কম থাকে, তবে সেই বস্তুগুলি এক্স 1 বৈশিষ্ট্যটির কিউ 1 এর জন্য বিনটিতে প্রচুর পরিমাণ জমা দেবে।

এটি আসলে একটি চতুর গণনা নয়, বরং এটি ক্রমাগত অব্যাহত মানগুলিকে বিযুক্ত করার এবং তারপরে শোষণের একটি উপায়। কোন বৈশিষ্ট্যগুলি সর্বাধিক তথ্যবহুল, অর্থাত্ সর্বাধিক (গিনি) তা নির্ধারণ করার জন্য গিনির সূচক এবং তথ্য লাভকে বিবেচনার পরে সহজেই গণনা করা যায়।

তবে পরামর্শ দিন যে এনবিসি সম্পাদন করার অনেকগুলি উপায় রয়েছে এবং অনেকগুলি একে অপরের থেকে একেবারে আলাদা। সুতরাং আপনাকে কেবল তা বলা দরকার যে আপনি কোনটি আলাপ বা কাগজে প্রয়োগ করেছেন।


2

নাইভ বেয়েসের হৃদয়টি বীরত্বপূর্ণ শর্তসাপেক্ষ ধারণা:

P(xX,C)=P(xC)

কোনওভাবেই আলাদা হতে হবে না। উদাহরণস্বরূপ, গাউসিয়ান ধরে নিয়েছে যে প্রতিটি বিভাগ এর আলাদা আলাদা গড় এবং বৈচিত্র রয়েছে: ঘনত্ব ।xCp(xC=i)=ϕ(μi,σi2)

পরামিতিগুলি অনুমান করার বিভিন্ন উপায় রয়েছে তবে সাধারণত একটি হতে পারে:

  • লেবেলযুক্ত ডেটা সহ সর্বাধিক সম্ভাবনা ব্যবহার করুন। (সাধারণ বিতরণের ক্ষেত্রে, গড় এবং বৈচিত্রের সর্বাধিক সম্ভাবনার অনুমান মূলত নমুনা গড় এবং নমুনার বৈকল্পিক are)
  • লেবেলযুক্ত ডেটা সহ ইএম অ্যালগরিদমের মতো কিছু।
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.