দুটি সম্ভাব্য বন্টনের মধ্যে পার্থক্য পরিমাপ করার কেএল ডাইভারজেন্স একটি প্রাকৃতিক উপায়। একটি ডিস্ট্রিবিউশন এর এনট্রপি বার্তা প্রতি ন্যূনতম সম্ভাব্য বিট দেয় যা থেকে আঁকা ইভেন্টগুলি ক্ষতিহীনভাবে এনকোড করার জন্য প্রয়োজন হবে (গড়ে) । এই সীমাটি অর্জনের জন্য জন্য নকশাকৃত একটি সর্বোত্তম কোড ব্যবহার করা দরকার যা উচ্চ সম্ভাবনার ইভেন্টগুলিতে সংক্ষিপ্ত কোড শব্দ ব্যবহার করে। পরিবর্তে ডিস্ট্রিবিউশন জন্য একটি অনুকূল কোড ব্যবহার করা হলে সত্য বিতরণ থেকে আঁকা ইভেন্টগুলি এনকোড করতে প্রয়োজনীয় বার্তায় অতিরিক্ত বিটগুলির প্রত্যাশিত সংখ্যা হিসাবে ব্যাখ্যা করা যেতে পারেH(p)pppDKL(p∥q)pqp। এটির সাথে বিতরণের তুলনা করার জন্য কিছু দুর্দান্ত বৈশিষ্ট্য রয়েছে। উদাহরণস্বরূপ, যদি এবং সমান হয় তবে কেএল ডাইভারজেন্স 0 হয়।pq
ক্রু এনট্রপি বার্তা বিটের সংখ্যা হিসাবে ব্যাখ্যা করা যেতে পারে (বার্ষিক) সত্য বিতরণ থেকে আঁকা ইভেন্টগুলি এনকোড করার জন্য প্রয়োজনীয় বার (বার্ষিক) , যদি বিতরণ জন্য সর্বোত্তম কোড ব্যবহার করা হয় । পার্থক্যটি নোট করুন: বার্তা প্রতি অতিরিক্ত বিটের গড় সংখ্যা পরিমাপ করে , যেখানে প্রতি বার্তায় মোট বিটের গড় সংখ্যা পরিমাপ করে । এটা যে, স্থায়ী জন্য সত্য , যেমন বৃদ্ধি পায় থেকে ক্রমবর্ধমান বিভিন্ন হয়ে । তবে, যদি স্থির না ধরে থাকে তবে ব্যাখ্যা করা শক্তH(p,q)pqDKL(p∥q)H(p,q)pH(p,q)qppH(p,q)পার্থক্যটির একটি নিখুঁত পরিমাপ হিসাবে, কারণ এটি এর এনট্রপি দিয়ে বৃদ্ধি পায় ।p
কেএল ডাইভারজেন্স এবং ক্রস এন্ট্রপি সম্পর্কিত হিসাবে সম্পর্কিত:
DKL(p∥q)=H(p,q)−H(p)
আমরা এই এক্সপ্রেশন থেকে দেখতে পাচ্ছি যে, যখন এবং সমান হয় তখন ক্রস এনট্রপি শূন্য হয় না; বরং এটি এর এনট্রপির সমান ।pqp
ক্রস এন্ট্রপি সাধারণত মেশিন লার্নিংয়ের ক্ষতির ফাংশনগুলিতে প্রদর্শিত হয়। এই পরিস্থিতিতে অনেক ক্ষেত্রে, কে 'সত্য' বিতরণ হিসাবে বিবেচনা করা হয়, এবং আমরা যে মডেলটিকে অনুকূল করতে চেষ্টা করছি। উদাহরণস্বরূপ, শ্রেণিবদ্ধকরণের সমস্যাগুলিতে, সাধারণত ব্যবহৃত ক্রস এনট্রপি ক্ষতি (ওরফে লগ ক্ষতি ) লেবেলের অভিজ্ঞতাগত বিতরণ (ইনপুটগুলি দেওয়া হয়) এবং শ্রেণিবদ্ধ দ্বারা পূর্বাভাস দেওয়া বিতরণের মধ্যে ক্রস এনট্রপি পরিমাপ করে । প্রতিটি ডেটা পয়েন্টের অভিজ্ঞতাগত বন্টন কেবলমাত্র ডেটা পয়েন্টের ক্লাসের জন্য সম্ভাব্যতা 1 এবং অন্য সমস্ত শ্রেণিতে 0 নির্ধারণ করে। পার্শ্ব দ্রষ্টব্য: এই ক্ষেত্রে ক্রস এন্ট্রপিটি নেতিবাচক লগ সম্ভাবনার সমানুপাতিক হতে দেখা যায়, তাই এটি হ্রাস করা সম্ভাবনা সর্বাধিকীকরণের সমতুল্য।pq
নোট করুন যে (এই উদাহরণে অভিজ্ঞতা অভিজ্ঞতা) স্থির হয়েছে। সুতরাং, এটি বলার সমতুল্য হবে যে আমরা অনুশীলনমূলক বিতরণ এবং পূর্বাভাস প্রাপ্ত বিতরণের মধ্যে কেএল বৈচিত্রকে হ্রাস করছি। আমরা উপরের অভিব্যক্তিতে দেখতে পাচ্ছি, দুটি সংযোজনীয় শব্দ (অভিজ্ঞতামূলক বিতরণের এনট্রপি) দ্বারা সম্পর্কিত। যেহেতু স্থির করা হয়েছে, মডেলের প্যারামিটারগুলির সাথে পরিবর্তন হয় না এবং ক্ষতি ফাংশনে অবহেলা করা যায়। আমরা তাত্ত্বিক / দার্শনিক কারণে এখনও কেএল বিচ্যুতি সম্পর্কে কথা বলতে চাই তবে এই ক্ষেত্রে, তারা অপটিমাইজেশন সমস্যা সমাধানের দৃষ্টিকোণ থেকে সমতুল্য। ক্রস এনট্রপি এবং কেএল ডাইভারজেন্সের অন্যান্য ব্যবহারের ক্ষেত্রে এটি সত্য নাও হতে পারে, যেখানেpH(p)pH(p)p বিভিন্ন হতে পারে।
t-SNE ইনপুট স্পেসে একটি ডিস্ট্রিবিউশন ফিট করে । প্রতিটি ডেটা পয়েন্ট এম্বেডিং স্পেসে ম্যাপ করা হয়, যেখানে সংশ্লিষ্ট বিতরণ ফিট করেঅ্যালগোরিদম হ্রাস করতে এমবেডিং সামঞ্জস্য করার চেষ্টা করে । উপরে হিসাবে, স্থির রাখা হয়। সুতরাং, অপ্টিমাইজেশান সমস্যার দৃষ্টিকোণ থেকে, কেএল ডাইভারজেন হ্রাস এবং ক্রস এন্ট্রপি হ্রাস করা সমান। প্রকৃতপক্ষে, ভ্যান ডার মাটেন এবং হিন্টন (২০০৮) বিভাগ 2 এ বলেছেন: "বিশ্বস্ততার একটি প্রাকৃতিক পরিমাপ যা মডেলগুলি হল কুলব্যাক-লেবেলার বিচ্যুতি (যা এতে রয়েছে অ্যাডিটিভ ধ্রুবক পর্যন্ত ক্রস-এন্ট্রপির সমান কেস) "pqDKL(p∥q)pqj∣ipj∣i
ভ্যান ডার মাটেন এবং হিন্টন (২০০৮) । টি-এসএনই ব্যবহার করে ভিজ্যুয়ালাইজিং ডেটা।