নাইভ বেয়েসে, যখন পরীক্ষার সেটটিতে আমাদের অজানা শব্দ রয়েছে তখন ল্যাপ্লেস স্মুথ করার জন্য কেন বিরক্ত হন?


27

আমি আজ নাইভ বেয়েস শ্রেণিবিন্যাসের উপর পড়ছিলাম। আমি পরামিতি অনুমানের শিরোনামে 1 টি স্মুথিং যুক্ত দিয়ে পড়েছি :

যাক c একটি বর্গ (যেমন ইতিবাচক বা নেতিবাচক হিসেবে) পড়ুন, এবং দিন w একটি টোকেন বা ওয়ার্ড পড়ুন।

জন্য সর্বোচ্চ সম্ভাবনা মূল্নির্ধারক P(w|c) হয়

count(w,c)count(c)=counts w in class ccounts of words in class c.

P(w|c) এই অনুমানটি সমস্যাযুক্ত হতে পারে যেহেতু এটি আমাদের অজানা শব্দের সহ নথির জন্য সম্ভাব্যতা 0 । এই সমস্যাটি সমাধানের একটি সাধারণ উপায় হ'ল ল্যাপলেস স্মুথ ব্যবহার করা।

প্রশিক্ষণ সেটে ভীমকে শব্দের সংগে পরিণত করুন, শব্দের সংকলনে একটি নতুন উপাদান UNK (অজানা জন্য) যুক্ত করুন।

Define

P(w|c)=count(w,c)+1count(c)+|V|+1,

যেখানে V শব্দভাণ্ডার (প্রশিক্ষণ সংস্থার শব্দগুলি) বোঝায়।

বিশেষত, কোনও অজানা শব্দের সম্ভাব্যতা

1count(c)+|V|+1.

আমার প্রশ্নটি হ'ল: আমরা কেন এই ল্যাপ্লেসটি মোটেও স্মুথিংয়ে বিরক্ত করব না? এই অজানা শব্দের সাথে আমরা টেস্টিং সেটে মুখোমুখি হওয়ার সম্ভাবনা থাকলে এটি সম্ভবত প্রায় শূন্য, অর্থাৎ 1count(c)+|V|+1 , তাদের মডেলটিতে অন্তর্ভুক্ত করার কী লাভ? কেন কেবল তাদের উপেক্ষা এবং মুছবেন না?


3
যদি আপনি না করেন তবে আপনার আগে কোনও অদেখা শব্দযুক্ত কোনও বিবৃতিতে । এর অর্থ একটি অসম্ভব ঘটনা ঘটেছে। যার অর্থ আপনার মডেলটি অবিশ্বাস্যভাবে খারাপ ফিট ছিল। এছাড়াও যথাযথ বায়েশিয়ান মডেলে এটি কখনই ঘটতে পারে না, কারণ অজানা শব্দটির সম্ভাব্যতার পূর্বে দেওয়া একটি সংখ্যক (সম্ভবত 1 নয়) থাকতে পারে। সুতরাং কেন জানি এর জন্য অভিনব নাম 'ল্যাপ্লেস স্মুথিং' প্রয়োজন। p=0
অনুমান

1
পাঠটি কী লেখা থেকে এসেছে?
কথার আগে

উত্তর:


17

আপনার সর্বদা এই 'ব্যর্থ-নিরাপদ' সম্ভাবনা দরকার।

প্রশিক্ষণের নমুনার কোনও শব্দই পরীক্ষার বাক্যে উপস্থিত না হওয়ার জন্য সবচেয়ে খারাপ পরিস্থিতিটি কেন বিবেচনা করুন তা দেখার জন্য। এই ক্ষেত্রে, আপনার মডেলের অধীনে আমরা এই সিদ্ধান্তে পৌঁছে যাব যে বাক্যটি অসম্ভব তবে এটি দ্বন্দ্ব তৈরি করার স্পষ্টভাবে উপস্থিত রয়েছে।

আরেকটি চূড়ান্ত উদাহরণ পরীক্ষা বাক্যটি "অ্যালেক্স স্টিভের সাথে দেখা করেছিলেন।" যেখানে "মিলিত" প্রশিক্ষণের নমুনায় বেশ কয়েকবার উপস্থিত হয় তবে "অ্যালেক্স" এবং "স্টিভ" তা দেয় না। আপনার মডেল এই বক্তব্যটি খুব সম্ভবত সম্ভব হবে যা সত্য নয়।


আমি সম্পূর্ণ মুরনের মতো শোনার জন্য ঘৃণা করি, তবে আপনি কি বিশদ বিবরণ করবেন? "অ্যালেক্স" এবং "স্টিভ" সরানো কীভাবে বিবৃতি হওয়ার সম্ভাবনা পরিবর্তন করে?
ম্যাট ও'ব্রায়েন

2
আমরা যদি পি (অ্যালেক্স) পি (স্টিভ) পি (সাক্ষাত্কার) << পি (মিলিত)
সিড

1
প্রশিক্ষণ ডেটা সেটটিতে মডেলটিকে প্রশিক্ষণ দেওয়ার সময় আমরা একটি শব্দভাণ্ডার তৈরি করতে পারি, সুতরাং পরীক্ষার ডেটা সেটে ভবিষ্যদ্বাণী করার সময় শব্দভাণ্ডারগুলিতে যে সমস্ত নতুন শব্দ দেখা যায় না কেবল তা সরিয়ে ফেলি না কেন?
অ্যাভোকাডো

15

ধরা যাক আপনি আপনার নাইভ বয়েস ক্লাসিফায়ারকে ২ টি ক্লাস, "হ্যাম" এবং "স্প্যাম" (যেমন এটি ইমেলগুলিকে শ্রেণিবদ্ধ করেছেন) প্রশিক্ষণ দিয়েছিলেন। সরলতার স্বার্থে, আমরা পূর্বের সম্ভাবনাগুলি 50/50 হিসাবে ধরে নেব।

(w1,w2,...,wn)

P(Ham|w1,w2,...wn)=.90
P(Spam|w1,w2,..wn)=.10

এ পর্যন্ত সব ঠিকই.

(w1,w2,...,wn,wn+1)

P(Ham|wn+1)=P(Spam|wn+1)=0

P(Ham|w1,w2,...wn,wn+1)=P(Ham|w1,w2,...wn)P(Ham|wn+1)=0
P(Spam|w1,w2,..wn,wn+1)=P(Spam|w1,w2,...wn)P(Spam|wn+1)=0

1 ম ইমেলটি দৃ class়ভাবে এক শ্রেণিতে শ্রেণিবদ্ধ করা হয়েছে সত্ত্বেও, এই দ্বিতীয় ইমেলটি শূন্যের সম্ভাবনা থাকার শেষ শব্দের কারণে আলাদাভাবে শ্রেণিবদ্ধ করা যেতে পারে।

ল্যাপলেস স্মুথিং উভয় শ্রেণির জন্য শেষ শব্দটিকে একটি ছোট অ-শূন্য সম্ভাবনা দিয়ে সমাধান করে, যাতে উত্তরীয় সম্ভাবনাগুলি হঠাৎ শূন্যে না যায়।


কেন আমরা এমন একটি শব্দ রাখব যা শব্দভাণ্ডারে মোটেও বিদ্যমান নেই? কেন শুধু এটি সরাবেন না?
অ্যাভোকাডো

4
যদি আপনার শ্রেণিবদ্ধকারী ইমেলটিকে হ্যাম হওয়ার সম্ভাবনা অনুসারে রেট দেয়, তবে পি (হ্যাম | ডাব্লু 1, ..., ডাব্লুএন) 0.9, পি নয় (ডাব্লু 1, ...,
ডাব্লু ডাব্লু।

5

আপনি যদি বায়েস অনুমানকারীদের সাথে পরিচিত হন তবে এই প্রশ্নটি বরং সহজ, যেহেতু এটি বেইস অনুমানের সরাসরি উপসংহার।

বায়েশিয়ান পদ্ধতির ক্ষেত্রে প্যারামিটারগুলি এমন একটি পরিমাণ হিসাবে বিবেচিত হয় যার প্রকরণ সম্ভাব্যতা বিতরণ (বা পূর্বে বিতরণ) দ্বারা বর্ণনা করা যেতে পারে।

সুতরাং, আমরা যদি বহুজাতিক বিতরণ হিসাবে বাছাইয়ের পদ্ধতিটি দেখি, তবে আমরা কয়েকটি পদক্ষেপে প্রশ্নটি সমাধান করতে পারি।

প্রথমে সংজ্ঞা দিন

m=|V|,n=ni

pi

p(p1,p2,...,pm|n1,n2,...,nm)=Γ(n+m)i=1mΓ(ni+1)i=1mpini

pi

E[pi]=ni+1n+m

pipi

p^i=E[pi]

আপনি দেখতে পাচ্ছেন আমরা কেবল ল্যাপ্লেস স্মুথিংয়ের মতো একই উপসংহারটি আঁকছি।


4

এই শব্দগুলিকে উপেক্ষা করা এটিকে পরিচালনা করার আরেকটি উপায়। এটি সমস্ত অনুপস্থিত ভেরিয়েবলের তুলনায় গড় (সংহতকরণ) এর সাথে মিলে যায়। সুতরাং ফলাফল ভিন্ন। কিভাবে?

P(C|d)=argmaxCip(ti|C)P(C)P(d)argmaxCip(ti|C)P(C)
tid

টোকেন বলুন not প্রদর্শিত হবে না। একটি ল্যাপ্লেস স্মুথিং ব্যবহার করার পরিবর্তে (যা বহুজাতিক বয়েসের পূর্বে একটি ডিরিচলেট চাপিয়ে দেওয়া থেকে আসে) আপনি sum যোগফলটি যোগ করে বলেন: আমি অজানা টোকেনের জন্য সমস্ত সম্ভাবনার উপরে ভারী ভোট গ্রহণ করছি (সেগুলি আছে বা না) ।tktk

P(C|d)argmaxCtkip(ti|C)P(C)=argmaxCP(C)ikp(ti|C)tkp(tk|C)=argmaxCP(C)ikp(ti|C)

তবে অনুশীলনে একজন স্মুথ পদ্ধতির পছন্দ করেন। এই টোকেনগুলি উপেক্ষা করার পরিবর্তে, আপনি তাদের কম সম্ভাবনা নির্ধারণ করেন যা চিন্তাভাবনার মতো: যদি আমার অজানা টোকেন থাকে তবে আমি যে ধরণের দস্তাবেজটিকে অন্যথায় ভাবছি তা এটির বেশি সম্ভাবনা নেই।


2

কোনও নায়েভ বেয়েস ক্লাসিফায়ার (আমরা যখন এর পরিবর্তে অজানা বৈশিষ্ট্যগুলি ফেলে দিতে পারি) তখন কেন আমরা ধূমপানের সাথে বিরক্ত করি তা জানতে চাই।

আপনার প্রশ্নের উত্তরটি হ'ল: সমস্ত শ্রেণিতে সমস্ত শব্দ অজানা থাকতে হবে না ।

দুটি ক্লাস আছে বলুন এম এবং এন সঙ্গে বৈশিষ্ট্য একটি , বি এবং সি নিম্নরূপ:

এম: এ = 3, বি = 1, সি = 0

( এম ক্লাসে , 3 বার এবং একবার উপস্থিত হয়)

এন: এ = 0, বি = 1, সি = 3

(ক্লাস ইন এন , সি 3 বার এবং মনে হচ্ছে, বি শুধুমাত্র একবার)

আসুন দেখে নেওয়া যাক আপনি যখন শূন্য বারের মতো প্রদর্শিত বৈশিষ্ট্যগুলি ফেলে দেন তখন কী হয় ।

ক) যে কোনও ক্লাসে জিরো টাইমস উপস্থিত বৈশিষ্ট্যগুলি ফেলে দিন

আপনি যদি এবং সি বৈশিষ্ট্যগুলি এড়িয়ে যান তবে সেগুলি ক্লাসগুলির যে কোনও একটিতে শূন্য বার প্রদর্শিত হয় , তবে আপনার সাথে ডকুমেন্টগুলি শ্রেণিবদ্ধ করার জন্য কেবল বৈশিষ্ট্য বি দিয়ে বাকি থাকবে ।

এবং সেই তথ্য হারানো একটি খারাপ জিনিস যা আপনি নীচে দেখতে পাবেন!

আপনি যদি পরীক্ষার নথিটি নিম্নরূপ উপস্থাপন করেন তবে:

বি = 1, সি = 3

(এতে একবার বি এবং সি তিনবার রয়েছে)

এখন, আপনি যেহেতু A এবং B বৈশিষ্ট্যগুলি বাতিল করেছেন তাই আপনি উপরের নথিটি ক্লাস এম বা ক্লাস এন এর অন্তর্গত কিনা তা আপনি বলতে পারবেন না ।

সুতরাং, কোনও বৈশিষ্ট্যের তথ্য হারাতে খারাপ জিনিস!

খ) সমস্ত ক্লাসে জিরো টাইমস প্রদর্শিত বৈশিষ্ট্যগুলি ফেলে দিন

এটা খারিজ করে আপনি এই সমস্যার কাছাকাছি পেতে কি সম্ভব শুধুমাত্র ঐ বৈশিষ্ট্য প্রদর্শিত শূন্য মধ্যে বার সব ক্লাস?

না, কারণ এটি তার নিজস্ব সমস্যা তৈরি করবে!

নিম্নলিখিত পরীক্ষার নথিতে আমরা যদি তা করি তবে কি হবে তা চিত্রিত করে:

এ = 3, বি = 1, সি = 1

সম্ভাব্যতা এম এবং এন উভয় হয়ে শূন্য (কারণ আমরা দূরে থাকা শূন্য সম্ভাব্যতা নিক্ষেপ করা হয়নি একজন ক্লাসে এন এবং শূন্য সম্ভাব্যতা সি ক্লাসে এম )।

গ) কিছুই ফেলে দেবেন না - পরিবর্তে স্মুথিং ব্যবহার করুন

স্মুথিং আপনাকে উপরের দুটি নথিকে সঠিকভাবে শ্রেণিবদ্ধ করতে দেয় কারণ:

  1. আপনি যেমন ক্লাসে গণনা তথ্য হারাবেন না যেখানে এই জাতীয় তথ্য পাওয়া যায় এবং
  2. আপনার শূন্যের সাথে লড়াই করতে হবে না।

অনুশীলনে নাইভ বেয়েস ক্লাসিফায়ার্স

এনএলটিকে নায়েভ বয়েস শ্রেণিবদ্ধকারী ক্লাসগুলির যে কোনও একটিতে শূন্যের গুণাবলীযুক্ত বৈশিষ্ট্যগুলি ফেলে দিতেন।

এটি একটি হার্ড ইএম পদ্ধতি (যেখানে শ্রেণিবদ্ধকারী খুব অল্প প্রশিক্ষণের ডেটা থেকে বুটস্ট্র্যাপ করা হয়) ব্যবহার করে প্রশিক্ষিত হওয়ার সময় এটি খারাপভাবে সঞ্চালন করতে ব্যবহৃত হত।


2
@ আইয়িও ল্যাবগুলি আপনি বুঝতে ব্যর্থ হয়েছিলেন যে তিনি এমন শব্দের উল্লেখ করছেন যা প্রশিক্ষণের সেটটিতে মোটেও উপস্থিত হয় নি, উদাহরণস্বরূপ, তিনি যদি ডি হাজির হন তবে তা বলতে চেয়েছিলেন, সমস্যাটি নির্ধারিত স্থান থেকে গণনাগুলিতে মসৃণতা নয় isn't প্রশিক্ষণের পরিবর্তে পরীক্ষা সেট। টেস্ট সেট থেকে অজানা শব্দের উপর লেয়ার স্মুথিং ব্যবহারের ফলে 0 + 1/2 + 3 বড় হওয়ার কারণে যে শ্রেণিতে ন্যূনতম পরিমাণ টোকেন ছিল তার দিকে ঝুঁকির সম্ভাবনা দেখা দেয় (ক্লাসগুলির কোনও যদি থাকে 3 টোকেন এবং অন্যটিতে 2) ছিল। ...

2
পর্যাপ্ত অজানা শব্দ সমীকরণের সাথে যুক্ত করা হলে এটি আসলে একটি সঠিক শ্রেণিবিন্যাসকে একটি ভুল শ্রেণিবিন্যাসে পরিণত করতে পারে। ল্যাপলেস স্মুথিং প্রশিক্ষণ সেট গণনার জন্য ঠিক আছে তবে সেট সেট বিশ্লেষণের জন্য ক্ষতিকারক। এছাড়াও কল্পনা করুন যে সমস্ত অজানা শব্দের সাথে আপনার একটি পরীক্ষা সেট রয়েছে, এটি তাত্ক্ষণিকভাবে সর্বোত্তম সম্ভাবনার সাথে শ্রেণিতে শ্রেণিবদ্ধ করা উচিত, তবে বাস্তবে এটি হতে পারে এবং সাধারণত এটি হিসাবে শ্রেণিবদ্ধ করা যায় না এবং সাধারণত সর্বনিম্ন পরিমাণে শ্রেণি হিসাবে শ্রেণিবদ্ধ করা হয় টোকেনের

@ ড্রাক থ্যাচার, আপনার সাথে অত্যন্ত একমত
অ্যাভোকাডো

1

নাইভ বেয়েস অধ্যয়নকালে আমিও একই সমস্যাটি পেলাম।

আমার মতে, যখনই আমরা পরীক্ষার উদাহরণটি সম্মুখীন করি যা আমরা প্রশিক্ষণের সময় পেলাম না, তখন পোস্টেরিয়র সম্ভাবনা 0 হয়ে যাবে।

সুতরাং 1 যুক্ত করে, এমনকি যদি আমরা কোনও নির্দিষ্ট বৈশিষ্ট্য / শ্রেণিতে প্রশিক্ষণ না পাই তবে পোস্টেরিয়ের সম্ভাবনা কখনই 0 হয় না।


1

ম্যাট আপনি ঠিক বলেছেন আপনি খুব ভাল পয়েন্ট উত্থাপন করেছেন - হ্যাঁ ল্যাপ্লেস স্মুথিং বেশ স্পষ্টতই বাজে! কেবলমাত্র এই বৈশিষ্ট্যগুলি ফেলে দেওয়া একটি বৈধ পন্থা হতে পারে, বিশেষত ডিনোমিনেটর যখন খুব কম সংখ্যক হয় - তবে সম্ভাবনার অনুমানকে সমর্থন করার পক্ষে যথেষ্ট প্রমাণ নেই evidence

কিছু সালিশী সামঞ্জস্য ব্যবহারের মাধ্যমে যে কোনও সমস্যা সমাধানের জন্য আমার দৃ I় বিদ্বেষ রয়েছে। এখানে সমস্যাটি হ'ল জিরোস, "সমাধান" হ'ল "কিছুটা ছোট মান শূন্যের সাথে যুক্ত করা সুতরাং এটি আর শূন্য নয় - ম্যাজিক সমস্যাটি আর নেই"। অবশ্যই এটি সম্পূর্ণ স্বেচ্ছাচারিতা।

আপনার আরও ভাল বৈশিষ্ট্য নির্বাচনের পরামর্শ দিয়ে শুরু করার জন্য কম স্বেচ্ছাচারিত পদ্ধতি এবং আইএমই কর্মক্ষমতা বাড়ায়। তদ্ব্যতীত লেপলেস স্মুথিং নিষ্পাপ বেয়েসের সাথে মিলে যেমন আমার অভিজ্ঞতায় গ্রানুলারিটি সমস্যাটি আরও খারাপ হয় - অর্থাত্ সমস্যা যেখানে স্কোরের আউটপুট ১.০ বা ০.০ এর কাছাকাছি থাকে (যদি বৈশিষ্ট্যের সংখ্যা অসীম হয় তবে প্রতি স্কোর ১.০ বা ০.০ হবে) - এটি স্বাধীনতা অনুমানের একটি পরিণতি)।

সম্ভাব্যতা অনুমানের জন্য বিকল্প কৌশলগুলি বিদ্যমান (সর্বাধিক সম্ভাবনা + ল্যাপ্লেস স্মুথিং ব্যতীত), তবে ব্যাপকভাবে নথিভুক্ত। প্রকৃতপক্ষে ইন্ডুকটিভ লজিক এবং ইনফারেন্স প্রসেসিস নামে একটি পুরো ক্ষেত্র রয়েছে যা তথ্য থিওরি থেকে প্রচুর সরঞ্জাম ব্যবহার করে।

আমরা অনুশীলনে যা ব্যবহার করি তা হ'ল ন্যূনতম ক্রস এন্ট্রপি আপডেটিং যা জেফরি আপডেট করার একটি এক্সটেনশন যেখানে আমরা সম্ভাবনার স্থানের উত্তল অঞ্চলটিকে এই অঞ্চলের প্রমাণের সাথে সঙ্গতিপূর্ণ বলে সংজ্ঞায়িত করি যাতে এর একটি বিন্দুটির অর্থ সর্বোচ্চ সম্ভাবনা অনুমানের মধ্যে থাকে বিন্দু থেকে প্রত্যাশিত পরম বিচ্যুতি

এটিতে একটি দুর্দান্ত সম্পত্তি রয়েছে যেহেতু ডেটা পয়েন্টের সংখ্যাটি হ্রাস হওয়ায় প্রাক্কলিতভাবে প্রজ্ঞার ভিত্তিতে প্রাক্কলন করা যায় - এবং তাই বায়সিয়ান গণনায় তাদের প্রভাব বাতিল। অন্যদিকে ল্যাপ্লেস স্মুথিং প্রতিটি অনুমানকে ম্যাক্সিমাম এন্ট্রপির বিন্দুতে পৌঁছে দেয় যা পূর্বে নাও হতে পারে এবং সেইজন্য গণনাটির প্রভাবটি নাল নয় এবং কেবল আওয়াজ যোগ করবে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.