এই প্রশ্নটি খুব আকর্ষণীয়। আমি সঠিক কারণটি জানি না তবে আমি মনে করি যে ঘনিষ্ঠভাবে ফাংশনটির ব্যবহারটি ব্যাখ্যা করার জন্য নিম্নলিখিত কারণটি ব্যবহার করা যেতে পারে। এই পোস্টটি পরিসংখ্যান মেকানিক্স এবং সর্বাধিক এনট্রপির নীতি দ্বারা অনুপ্রাণিত।
আমি একটি উদাহরণ ব্যবহার করে এই ব্যাখ্যা করবে চিত্র, যা দ্বারা গঠিত হয় বর্গ থেকে চিত্রগুলি , বর্গ থেকে চিত্রগুলি ... এবং বর্গ থেকে চিত্রগুলি । তারপরে আমরা ধরে নিই যে আমাদের নিউরাল নেটওয়ার্কটি আমাদের চিত্রগুলিতে একটি ননলাইনার ট্রান্সফর্ম প্রয়োগ করতে সক্ষম হয়েছিল, যেমন আমরা সমস্ত শ্রেণিতে একটি 'শক্তি স্তর' নির্ধারণ করতে পারি । আমরা ধরে নিই যে এই শক্তিটি একটি ননলাইনার স্কেলে রয়েছে যা আমাদের চিত্রগুলি রৈখিকভাবে পৃথক করতে দেয়।Nn1C1n2C2nKCKEk
গড় শক্তি নীচের সম্পর্কের দ্বারা অন্যান্য শক্তির সাথে সম্পর্কিত
E¯EkNE¯=∑k=1KnkEk.(∗)
একই সময়ে, আমরা দেখতে পাই যে মোট পরিমাণ চিত্র নীচের যোগফল হিসাবে গণনা করা যেতে পারে
N=∑k=1Knk.(∗∗)
সর্বাধিক এনট্রপি নীতিটির মূল ধারণাটি সম্পর্কিত শ্রেণিতে চিত্রের সংখ্যা এমনভাবে বিতরণ করা হয় যাতে প্রদত্ত শক্তি বিতরণের জন্য সম্ভাব্য সংমিশ্রণের সংখ্যা সর্বাধিক হয়। এটিকে আরও সহজভাবে বলতে গেলে সিস্টেমটি এমন রাজ্যে যাবে না যেখানে আমাদের কেবল ক্লাস এটি এমন একটি রাজ্যেও যাবে না যেখানে আমাদের প্রতিটি ক্লাসে একই সংখ্যার চিত্র রয়েছে। কিন্তু কেন এই হল? সমস্ত চিত্র যদি এক শ্রেণিতে থাকে তবে সিস্টেমে খুব কম এনট্রপি থাকত। দ্বিতীয় কেসটিও হবে খুব অপ্রাকৃত পরিস্থিতি। এটি আরও বেশি সম্ভাবনা রয়েছে যে আমাদের মাঝারি শক্তি সহ আরও বেশি চিত্র এবং খুব উচ্চ এবং খুব কম শক্তিযুক্ত কম ইমেজ থাকবে।n1
সমন্বয় যা আমরা বিভক্ত করতে পারেন নম্বর দিয়ে এনট্রপি বৃদ্ধি মধ্যে চিত্র , , ..., সংশ্লিষ্ট শক্তি ইমেজ ক্লাস। এই সংমিশ্রণের সংখ্যাটি বহু-গুণগত সহগ দ্বারা দেওয়া হয়েছেNn1n2nK
(N!n1!,n2!,…,nK!)=N!∏Kk=1nk!.
আমরা এই সংখ্যাটি সর্বাধিক করার চেষ্টা করে ধরে নিব যে আমাদের অনেকগুলি চিত্র । তবে তার সর্বাধিককরণের সমতা বাধাও রয়েছে এবং । এই ধরণের অপ্টিমাইজেশানকে সীমাবদ্ধ অপ্টিমাইজেশন বলা হয়। ল্যাংরেঞ্জ গুণকগুলির পদ্ধতিটি ব্যবহার করে আমরা বিশ্লেষণ করে এই সমস্যাটি সমাধান করতে পারি। আমরা সামঞ্জস্যের সীমাবদ্ধতার জন্য ল্যাঞ্জরেঞ্জ গুণক এবং প্রবর্তন করি এবং আমরা ।N→∞(∗)(∗∗)βαL(n1,n2,…,nk;α,β)
L(n1,n2,…,nk;α,β)=N!∏Kk=1nk!+β[∑k=1KnkEk−NE¯]+α[N−∑k=1Knk]
যেমন আমরা ধরে আমরা ও ধরে নিতে পারি এবং ব্যবহার করতে পারিN→∞nk→∞
lnn!=nlnn−n+O(lnn).
দ্রষ্টব্য যে এই অনুমানের (প্রথম দুটি শব্দ) কেবলমাত্র অ্যাসিম্পটোটিক এটির অর্থ এই নয় যে এই রূপান্তরিত হবেজন্য ।lnn!n→∞
respect সম্মানের সাথে ফাংশনের আংশিক ডেরিভেটিভের ফলাফল হবেnk~
∂L∂nk~=−lnnk~−1−α+βEk~.
যদি আমরা এই আংশিক ডেরাইভেটিভকে শূন্যতে সেট করি তবে আমরা এটি খুঁজে পেতে পারি
nk~=exp(βEk~)exp(1+α).(∗∗∗)
যদি আমরা এটি পিছনে রাখি আমরা পেতে পারি(∗∗)
exp(1+α)=1N∑k=1Kexp(βEk).
যদি আমরা এটিকে পিছনে রাখি আমরা এমন কিছু পাই যা আমাদের সফটম্যাক্স ফাংশনটির স্মরণ করিয়ে দেয়(∗∗∗)
nk~=exp(βEk~)1N∑Kk=1exp(βEk).
যদি আমরা ক্লাস দ্বারা দ্বারা সম্ভাব্য হিসাবে সংজ্ঞায়িত করি তবে আমরা এমন কিছু অর্জন করব যা স্নায়ম্যাক্স ফাংশনের সাথে সত্যই সমানnk~/NCk~pk~
pk~=exp(βEk~)∑Kk=1exp(βEk).
সুতরাং, এটি আমাদের দেখায় যে সফটম্যাক্স ফাংশনটি হ'ল ফাংশন যা চিত্রগুলির বিতরণে এনট্রপিকে সর্বাধিক করে তোলে। এই বিন্দু থেকে, এটি চিত্রের বিতরণ হিসাবে এটি ব্যবহার করা বোধগম্য। যদি আমরা set সেট করি তবে আমরা ঠিক আউটপুটটির জন্য সফটম্যাক্স ফাংশনের সংজ্ঞা পেয়েছি ।βEk~=wTkxkth