কেন আমরা টি-এসএনই উদ্দেশ্যমূলক ক্রিয়ায় ক্রস এনট্রপির পরিবর্তে কুলব্যাক-লেবেলার ডাইভারজেন্স ব্যবহার করব?

আমার মনে, নমুনা বিতরণ থেকে সত্য বিতরণে কেএল ডাইভার্জেন্স কেবল ক্রস এনট্রপি এবং এন্ট্রপির মধ্যে পার্থক্য।

আমরা কেন অনেকগুলি মেশিন লার্নিং মডেলগুলিতে ব্যয় ফাংশন হিসাবে ক্রস এনট্রপি ব্যবহার করি, তবে টি-সনে কুলব্যাক-লেবলার ডাইভারজেন্সটি ব্যবহার করি? শেখার গতিতে কি কোনও পার্থক্য আছে?

kullback-leibler tsne cross-entropy

— JimSpark
সূত্র

কেএল-তে কিছু স্বজ্ঞাততার

— kjetil b halvorsen

দুটি সম্ভাব্য বন্টনের মধ্যে পার্থক্য পরিমাপ করার কেএল ডাইভারজেন্স একটি প্রাকৃতিক উপায়। একটি ডিস্ট্রিবিউশন এর এনট্রপি বার্তা প্রতি ন্যূনতম সম্ভাব্য বিট দেয় যা থেকে আঁকা ইভেন্টগুলি ক্ষতিহীনভাবে এনকোড করার জন্য প্রয়োজন হবে (গড়ে) । এই সীমাটি অর্জনের জন্য জন্য নকশাকৃত একটি সর্বোত্তম কোড ব্যবহার করা দরকার যা উচ্চ সম্ভাবনার ইভেন্টগুলিতে সংক্ষিপ্ত কোড শব্দ ব্যবহার করে। পরিবর্তে ডিস্ট্রিবিউশন জন্য একটি অনুকূল কোড ব্যবহার করা হলে সত্য বিতরণ থেকে আঁকা ইভেন্টগুলি এনকোড করতে প্রয়োজনীয় বার্তায় অতিরিক্ত বিটগুলির প্রত্যাশিত সংখ্যা হিসাবে ব্যাখ্যা করা যেতে পারে $H(p)$ $p$ $p$ $p$ $D_{KL}(p \parallel q)$ $p$ $q$ $p$ । এটির সাথে বিতরণের তুলনা করার জন্য কিছু দুর্দান্ত বৈশিষ্ট্য রয়েছে। উদাহরণস্বরূপ, যদি এবং সমান হয় তবে কেএল ডাইভারজেন্স 0 হয়। $p$ $q$

ক্রু এনট্রপি বার্তা বিটের সংখ্যা হিসাবে ব্যাখ্যা করা যেতে পারে (বার্ষিক) সত্য বিতরণ থেকে আঁকা ইভেন্টগুলি এনকোড করার জন্য প্রয়োজনীয় বার (বার্ষিক) , যদি বিতরণ জন্য সর্বোত্তম কোড ব্যবহার করা হয় । পার্থক্যটি নোট করুন: বার্তা প্রতি অতিরিক্ত বিটের গড় সংখ্যা পরিমাপ করে , যেখানে প্রতি বার্তায় মোট বিটের গড় সংখ্যা পরিমাপ করে । এটা যে, স্থায়ী জন্য সত্য , যেমন বৃদ্ধি পায় থেকে ক্রমবর্ধমান বিভিন্ন হয়ে । তবে, যদি স্থির না ধরে থাকে তবে ব্যাখ্যা করা শক্ত $H(p, q)$ $p$ $q$ $D_{KL}(p \parallel q)$ $H(p, q)$ $p$ $H(p, q)$ $q$ $p$ $p$ $H(p, q)$ পার্থক্যটির একটি নিখুঁত পরিমাপ হিসাবে, কারণ এটি এর এনট্রপি দিয়ে বৃদ্ধি পায় । $p$

কেএল ডাইভারজেন্স এবং ক্রস এন্ট্রপি সম্পর্কিত হিসাবে সম্পর্কিত:

D_{K L} (p ∥ q) = H (p, q) - H (p)

$D_{KL}(p \parallel q) = H(p, q) - H(p)$

আমরা এই এক্সপ্রেশন থেকে দেখতে পাচ্ছি যে, যখন এবং সমান হয় তখন ক্রস এনট্রপি শূন্য হয় না; বরং এটি এর এনট্রপির সমান । $p$ $q$ $p$

ক্রস এন্ট্রপি সাধারণত মেশিন লার্নিংয়ের ক্ষতির ফাংশনগুলিতে প্রদর্শিত হয়। এই পরিস্থিতিতে অনেক ক্ষেত্রে, কে 'সত্য' বিতরণ হিসাবে বিবেচনা করা হয়, এবং আমরা যে মডেলটিকে অনুকূল করতে চেষ্টা করছি। উদাহরণস্বরূপ, শ্রেণিবদ্ধকরণের সমস্যাগুলিতে, সাধারণত ব্যবহৃত ক্রস এনট্রপি ক্ষতি (ওরফে লগ ক্ষতি ) লেবেলের অভিজ্ঞতাগত বিতরণ (ইনপুটগুলি দেওয়া হয়) এবং শ্রেণিবদ্ধ দ্বারা পূর্বাভাস দেওয়া বিতরণের মধ্যে ক্রস এনট্রপি পরিমাপ করে । প্রতিটি ডেটা পয়েন্টের অভিজ্ঞতাগত বন্টন কেবলমাত্র ডেটা পয়েন্টের ক্লাসের জন্য সম্ভাব্যতা 1 এবং অন্য সমস্ত শ্রেণিতে 0 নির্ধারণ করে। পার্শ্ব দ্রষ্টব্য: এই ক্ষেত্রে ক্রস এন্ট্রপিটি নেতিবাচক লগ সম্ভাবনার সমানুপাতিক হতে দেখা যায়, তাই এটি হ্রাস করা সম্ভাবনা সর্বাধিকীকরণের সমতুল্য। $p$ $q$

নোট করুন যে (এই উদাহরণে অভিজ্ঞতা অভিজ্ঞতা) স্থির হয়েছে। সুতরাং, এটি বলার সমতুল্য হবে যে আমরা অনুশীলনমূলক বিতরণ এবং পূর্বাভাস প্রাপ্ত বিতরণের মধ্যে কেএল বৈচিত্রকে হ্রাস করছি। আমরা উপরের অভিব্যক্তিতে দেখতে পাচ্ছি, দুটি সংযোজনীয় শব্দ (অভিজ্ঞতামূলক বিতরণের এনট্রপি) দ্বারা সম্পর্কিত। যেহেতু স্থির করা হয়েছে, মডেলের প্যারামিটারগুলির সাথে পরিবর্তন হয় না এবং ক্ষতি ফাংশনে অবহেলা করা যায়। আমরা তাত্ত্বিক / দার্শনিক কারণে এখনও কেএল বিচ্যুতি সম্পর্কে কথা বলতে চাই তবে এই ক্ষেত্রে, তারা অপটিমাইজেশন সমস্যা সমাধানের দৃষ্টিকোণ থেকে সমতুল্য। ক্রস এনট্রপি এবং কেএল ডাইভারজেন্সের অন্যান্য ব্যবহারের ক্ষেত্রে এটি সত্য নাও হতে পারে, যেখানে $p$ $H(p)$ $p$ $H(p)$ $p$ বিভিন্ন হতে পারে।

t-SNE ইনপুট স্পেসে একটি ডিস্ট্রিবিউশন ফিট করে । প্রতিটি ডেটা পয়েন্ট এম্বেডিং স্পেসে ম্যাপ করা হয়, যেখানে সংশ্লিষ্ট বিতরণ ফিট করেঅ্যালগোরিদম হ্রাস করতে এমবেডিং সামঞ্জস্য করার চেষ্টা করে । উপরে হিসাবে, স্থির রাখা হয়। সুতরাং, অপ্টিমাইজেশান সমস্যার দৃষ্টিকোণ থেকে, কেএল ডাইভারজেন হ্রাস এবং ক্রস এন্ট্রপি হ্রাস করা সমান। প্রকৃতপক্ষে, ভ্যান ডার মাটেন এবং হিন্টন (২০০৮) বিভাগ 2 এ বলেছেন: "বিশ্বস্ততার একটি প্রাকৃতিক পরিমাপ যা মডেলগুলি হল কুলব্যাক-লেবেলার বিচ্যুতি (যা এতে রয়েছে অ্যাডিটিভ ধ্রুবক পর্যন্ত ক্রস-এন্ট্রপির সমান কেস) " $p$ $q$ $D_{KL}(p \parallel q)$ $p$ $q_{j \mid i}$ $p_{j \mid i}$

ভ্যান ডার মাটেন এবং হিন্টন (২০০৮) । টি-এসএনই ব্যবহার করে ভিজ্যুয়ালাইজিং ডেটা।

— user20160
সূত্র

আমি কি কোনওভাবে 'প্রিয়' উত্তরগুলি দিতে পারি? আমি এটি সংরক্ষণ করতে চাই কারণ এটি খুব সুন্দর ব্যাখ্যা

— zwep

ধন্যবাদ, খুশী এটি আপনার পক্ষে সহায়ক। ভোট বোতামের নীচে তারা আইকনে ক্লিক করে আপনি পুরো থ্রেডটি সংরক্ষণ করতে পছন্দ হিসাবে একটি প্রশ্ন চিহ্নিত করতে পারেন। আপনি নিজের অ্যাকাউন্ট পৃষ্ঠাতে আপনার পছন্দের তালিকাগুলি দেখতে পারেন।

— ব্যবহারকারী20160