নাইভ বেয়েস ক্লাসিফায়ার গণনায় শূন্য ফ্যাক্টর কীভাবে পরিচালনা করবেন?


14

যদি আমার একটি প্রশিক্ষণের ডেটা সেট থাকে এবং আমি এটিতে একটি নাইভ বয়েস ক্লাসিফায়ারকে প্রশিক্ষণ দিই এবং আমার একটি গুণাবলীর মান রয়েছে যার সম্ভাবনা শূন্য। আমি পরে যদি নতুন ডেটাতে শ্রেণিবিন্যাসের পূর্বাভাস দিতে চাই তবে আমি কীভাবে এটি পরিচালনা করব? সমস্যাটি হ'ল, গণনায় যদি শূন্য থাকে তবে পুরো পণ্যটি শূন্য হয়ে যায়, আমি যতগুলি অন্যান্য মান পেয়েছি তা বিবেচনাধীন অন্য কোন সমাধান খুঁজে পেতে পারে no

উদাহরণ:

P(x|spam=yes)=P(TimeZone=US|spam=yes)P(GeoLocation=EU|spam=yes) ... =0.004

P(x|spam=no)=P(TimeZone=US|spam=no)P(GeoLocation=EU|spam=no) ... =0

পুরো পণ্যটি হয়ে যায় কারণ প্রশিক্ষণের ডেটাতে টাইমজোন মার্কিন বৈশিষ্ট্যটি আমাদের ছোট প্রশিক্ষণের ডেটা সেটে সর্বদা হ্যাঁ থাকে। আমি কীভাবে এটি পরিচালনা করতে পারি? আমার কি প্রশিক্ষণের ডেটাগুলির একটি বড় সেট ব্যবহার করা উচিত বা এই সমস্যাটি কাটিয়ে ওঠার জন্য আরও কোনও সম্ভাবনা আছে?0


আপনি যদি একটি পৃথক বৈশিষ্ট্যযুক্ত মানটি পেয়ে থাকেন তবে সংজ্ঞা অনুসারে এর সম্ভাব্যতা শূন্য হতে পারে না।
পল

আমরা 0 এ 1 টি ফ্রিকোয়েন্সি সমস্যাটির পিছনে যুক্তিযুক্ত কারণ কেন আমরা অন্য নম্বর যুক্ত করি না।
আফতাব হুশাইন 21

উত্তর:


13

বায়েশিয়ান সেটিং-এ এই 'শূন্য ফ্রিকোয়েন্সি সমস্যা' কাটিয়ে উঠার জন্য একটি পদ্ধতিকে হ'ল যখন প্রতিটি শ্রেণি মানের সাথে একটি অ্যাট্রিবিউট মানটি ঘটে না তখন প্রতিটি অ্যাট্রিবিউট মান-শ্রেণীর সংমিশ্রণের জন্য একটিকে গণনাতে যুক্ত করা হয়। সুতরাং, উদাহরণস্বরূপ, বলুন যে আপনার প্রশিক্ষণের ডেটাটি এমন দেখাচ্ছে:

Spam=yesSpam=noTimeZone=US105TimeZone=EU00

P(TimeZone=US|Spam=yes)=1010=1

P(TimeZone=EU|Spam=yes)=010=0

তারপরে আপনি সম্ভাব্যতা গণনা করতে যখন এটি ব্যবহার করছেন তখন এই টেবিলের প্রতিটি মানটিতে একটি যুক্ত করা উচিত:

Spam=yesSpam=noTimeZone=US116TimeZone=EU11

P(TimeZone=US|Spam=yes)=1112

P(TimeZone=EU|Spam=yes)=112


4
প্রকৃতপক্ষে. মনে রাখবেন যে কোনও সময় আপনি এক ব্যতীত অন্য মান যুক্ত করতে পারেন। বিস্তারিত জানার জন্য দেখুন en.wikipedia.org/wiki/Additive_smoothing
ডাল
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.