( ) 0 হতে পারে এটি কি সমস্যা নয় ?yilog(yi)
হ্যাঁ এটি, যেহেতু , তবে অনুশীলনে problem ব্যবহার করে এই সমস্যাটি এড়ানো যায় ।log(0)log(yi+ϵ)
সঠিক কি?
(ক) বা
(খ) ?Hy′(y):=−∑iy′ilog(yi)
Hy′(y):=−∑i(y′ilog(yi)+(1−y′i)log(1−yi))
(ক) বহু-শ্রেণীর পূর্বাভাসের জন্য সঠিক (এটি আসলে একটি দ্বিগুণ সংক্ষেপণ), (খ) দ্বি-শ্রেণীর পূর্বাভাসের জন্য (ক) এর সমান। দুটোই ক্রস-এনট্রপি।
উদাহরণ:
প্রতিটি প্রশিক্ষণ ডেটা ধরুন লেবেল আছে , এবং মডেল অনুমান ।xic′i∈{0,1}ci∈[0,1]
5 ডেটা পয়েন্টের জন্য, সত্য লেবেল এবং মডেল পূর্বাভাস : c′ici
(c′i,ci)={(0,0.1),(0,0.4),(0,0.8),(1,0.8),(1,0.2)} (1),
ভেক্টরগুলি এবং হিসাবে নির্ধারণ করুনy′iyi
y′ik:=1 যদি , এবং অন্যথায়, c′i=k:=0
yik:=p(k|xi) ক্লাস অন্তর্গত হওয়ার সম্ভাবনা যা মডেল দ্বারা অনুমান করা হয়।xik
মধ্যে (1) উদাহরণ রূপান্তরিত হয়: (y′i,yi)
(y′i,yi)={([1,0],[0.9,0.1]), ([1,0],[0.6,0.4]), ([1,0],[0.2,0.8]), ([0,1],[0.2,0.8]), ([0,1],[0.8,0.2])} ,
(ক) এবং (খ) উভয়ই গণনা করা হয়:
Hy′(y)=−1/5([log(0.9)+log(0.6)+log(0.2)]ci=0+[log(0.8)+log(0.2)]ci=1)=0.352
ডেরাইভেশন:
ধরুন থেকে পর্যন্ত একাধিক ক্লাস রয়েছে ।
প্রশিক্ষণের পয়েন্টের জন্য , সমান যা পজিশনে 1 এবং অন্য কোথাও 0। যখন , আমরা চাই মডেলের আউটপুট 1 এর কাছাকাছি হওয়া উচিত Therefore সুতরাং, ক্ষতি- হিসাবে সংজ্ঞায়িত করা যেতে পারে , যা । সমস্ত শ্রেণীর মধ্যে ক্ষতি হিসাবে একত্রিত করা যেতে পারে:1K
(xi,c′i)c′i=ky′i=[0,..,1,0,..]kthy′ik=1yik=p(k|xi)(xi,k)−log(yik)yik→1⇒−log(yik)→0
L(y′i,yi)=−∑Kk=1y′iklog(yik) ।
যখন , অন্য সমস্ত শ্রেণীর হিসাবে অক্ষম করা হবে , সুতরাং উদাহরণস্বরূপ যখন সত্য লেবেল , ক্ষতি হবে থাকা:y′ik=1k′≠k0log(yik′)=0y′im=1
L(y′i,yi)=−log(yim) ।
সমস্ত প্রশিক্ষণ পয়েন্টের উপর চূড়ান্ত সূত্রটি হ'ল:
Hy′(y)=−∑(xi,y′i)∑Kk=1y′iklog(yik) ।
বাইনারি শ্রেণিবদ্ধকরণের জন্য, আমাদের (সত্য লেবেল) এবং (মডেল পূর্বাভাস) রয়েছে, সুতরাং (ক) এইভাবে আবার লিখিত হতে পারে:y′i0=1−y′i1yi0=1−yi1
Hy′(y)=−∑(xi,y′i)y′i1log(yi1)+y′i0log(yi0)=−∑(xi,y′i)y′i1log(yi1)+(1−y′i1)log(1−yi1)
যা (খ) এর সমান।
ক্রস-এন্ট্রপি (ক) ক্লাস ওভার (একটি সংশ্লেষ)
ক্লাসের উপরে ক্রস-এন্ট্রপি (ক) হ'ল:
Hy′(y)=−∑Kk=1y′klog(yk) ,
এই সংস্করণটি শ্রেণিবদ্ধকরণ কাজের জন্য ব্যবহার করা যাবে না। পূর্ববর্তী উদাহরণ থেকে ডেটা পুনরায় ব্যবহার করা যাক:
(c′i,ci)={(0,0.1),(0,0.4),(0,0.8),(1,0.8),(1,0.2)}
পরীক্ষামূলক শ্রেণীর সম্ভাবনাগুলি : এবং ,y′0=3/5=0.6y′1=0.4
মডেল দ্বারা অনুমান শ্রেণীর সম্ভাবনাগুলি : এবংy0=3/5=0.6y1=0.4
(ক) হিসাবে গণনা করা হয়: ।−y′0logy0−y′1logy1=−0.6log(0.6)−0.4log(0.4)=0.292
দুটি তথ্য পয়েন্ট এবং মিস-শ্রেণিবদ্ধ কিন্তু এবং সঠিকভাবে অনুমান করা হয়!(0,0.8)(1,0.2)y′0y′1
: সব 5 পয়েন্ট যেখানে যেমন সঠিকভাবে শ্রেণীবদ্ধ তাহলে ,
(c′i,ci)={(0,0.1),(0,0.4),(0,0.2),(1,0.8),(1,0.8)}
(ক) এখনও একই থাকে, যেহেতু আবার হিসাবে অনুমান করা হয় ।y′0y0=3/5