আমি জানি যে ক্রস-এন্ট্রপি কী তা নিয়ে অনেক ব্যাখ্যা রয়েছে তবে আমি এখনও বিভ্রান্ত।
ক্ষতির কার্যকারিতা বর্ণনা করার জন্য কি কেবল একটি পদ্ধতি? ক্ষতির ফাংশনটি ব্যবহার করে ন্যূনতম সন্ধান করতে আমরা গ্রেডিয়েন্ট বংশদ্ভুত অ্যালগরিদম ব্যবহার করতে পারি?
আমি জানি যে ক্রস-এন্ট্রপি কী তা নিয়ে অনেক ব্যাখ্যা রয়েছে তবে আমি এখনও বিভ্রান্ত।
ক্ষতির কার্যকারিতা বর্ণনা করার জন্য কি কেবল একটি পদ্ধতি? ক্ষতির ফাংশনটি ব্যবহার করে ন্যূনতম সন্ধান করতে আমরা গ্রেডিয়েন্ট বংশদ্ভুত অ্যালগরিদম ব্যবহার করতে পারি?
উত্তর:
ক্রস-এনট্রপি সাধারণত দুটি সম্ভাব্য বন্টনের মধ্যে পার্থক্য প্রমাণ করতে ব্যবহৃত হয়। সাধারণত "সত্য" বিতরণ (আপনার মেশিন লার্নিং অ্যালগরিদম যেটি মেলে চেষ্টা করছে) এক-গরম বিতরণের ক্ষেত্রে প্রকাশিত হয়।
উদাহরণস্বরূপ, ধরুন কোনও নির্দিষ্ট প্রশিক্ষণের উদাহরণের জন্য আসল লেবেল হ'ল বি (সম্ভাব্য লেবেল এ, বি এবং সি এর মধ্যে)। এই প্রশিক্ষণের উদাহরণের জন্য এক-গরম বিতরণ হ'ল:
Pr(Class A) Pr(Class B) Pr(Class C)
0.0 1.0 0.0
আপনি উপরোক্ত সত্য বিতরণটির ব্যাখ্যা করতে পারেন যে প্রশিক্ষণের উদাহরণটিতে ক্লাস এ হওয়ার 0% সম্ভাবনা, বি বি শ্রেণি হওয়ার 100% সম্ভাবনা এবং শ্রেণি সি হওয়ার 0% সম্ভাবনা রয়েছে has
এখন, ধরুন আপনার মেশিন লার্নিং অ্যালগরিদম নিম্নলিখিত সম্ভাব্যতা বিতরণের পূর্বাভাস করেছে:
Pr(Class A) Pr(Class B) Pr(Class C)
0.228 0.619 0.153
সত্য বিতরণের পূর্বাভাস বিতরণ কতটা কাছাকাছি? ক্রস-এনট্রপি ক্ষতি এটিই নির্ধারণ করে। এই সূত্রটি ব্যবহার করুন:
p(x)
সত্য সম্ভাবনা বিতরণ কোথায় , এবং q(x)
পূর্বাভাসের সম্ভাবনা বন্টন। যোগফলটি তিনটি A, B এবং C এর উপরে রয়েছে, এক্ষেত্রে লোকসানটি 0.479 হয় :
H = - (0.0*ln(0.228) + 1.0*ln(0.619) + 0.0*ln(0.153)) = 0.479
সুতরাং সত্যিকারের বিতরণ থেকে আপনার ভবিষ্যদ্বাণীটি "ভুল" বা "দূরে" is
ক্রস এন্ট্রপি হ'ল সম্ভাব্য ক্ষতির কোনও একটি (অন্য জনপ্রিয় এটি এসভিএম কবজ ক্ষতি) loss এই ক্ষতির ফাংশনগুলি সাধারণত জ (থেটা) হিসাবে লেখা হয় এবং গ্রেডিয়েন্ট বংশোদ্ভূত হওয়ার মধ্যে ব্যবহার করা যেতে পারে, যা পরামিতিগুলি (বা সহগ) সর্বোত্তম মানগুলির দিকে সরানোর জন্য একটি পুনরাবৃত্ত অ্যালগরিদম। নিচে সমীকরণ, আপনি প্রতিস্থাপন করবে J(theta)
সঙ্গে H(p, q)
। তবে নোট করুন যে আপনাকে H(p, q)
প্রথমে প্যারামিটারগুলির সাথে সম্মানের সাথে ডেরাইভেটিভ গণনা করতে হবে ।
সুতরাং আপনার মূল প্রশ্নের সরাসরি উত্তর দিতে:
ক্ষতির কার্যকারিতা বর্ণনা করার জন্য কি কেবল এটিই একটি পদ্ধতি?
সঠিক, ক্রস-এনট্রপি দুটি সম্ভাব্যতা বিতরণের মধ্যে ক্ষতির বর্ণনা দেয়। এটি সম্ভাব্য ক্ষতির অন্যতম কার্যকারিতা।
তারপরে আমরা নূন্যতম সন্ধানের জন্য গ্রেডিয়েন্ট বংশদ্ভুত অ্যালগরিদম ব্যবহার করতে পারি।
হ্যাঁ, ক্রস-এন্ট্রপি ক্ষতি ফাংশন গ্রেডিয়েন্ট বংশোদ্ভূত অংশ হিসাবে ব্যবহার করা যেতে পারে।
আরও পড়ুন: টেনসরফ্লো সম্পর্কিত আমার অন্য একটি উত্তর ।
cosine (dis)similarity
কোণের মাধ্যমে ত্রুটিটি বর্ণনা করতে পারি এবং তারপরে কোণটি ছোট করার চেষ্টা করতে পারি।
p(x)
প্রতিটি শ্রেণীর জন্য স্থল-সত্য সম্ভাবনার তালিকা হবে, যা হবে [0.0, 1.0, 0.0
। তেমনিভাবে, q(x)
ক্লাসগুলির প্রত্যেকের জন্য পূর্বাভাসের সম্ভাবনার তালিকা [0.228, 0.619, 0.153]
,। H(p, q)
তারপরে - (0 * log(2.28) + 1.0 * log(0.619) + 0 * log(0.153))
যা 0.479 হয়ে আসে। দ্রষ্টব্য যে পাইথনের np.log()
ফাংশনটি ব্যবহার করা সাধারণ , যা আসলে প্রাকৃতিক লগ; এটা কোন ব্যাপার না।
সংক্ষেপে, ক্রস-এন্ট্রপি (সিই) হ'ল সত্য লেবেল থেকে আপনার পূর্বাভাসের মান কত দূর।
এখানে ক্রসটি দুটি বা আরও বেশি বৈশিষ্ট্য / সত্য লেবেলের (যেমন 0, 1) এর মধ্যে এনট্রপি গণনা করে।
এবং এনট্রপি শব্দটি নিজেই এলোমেলোতা বোঝায়, এর এত বড় মূল্যের অর্থ আপনার ভবিষ্যদ্বাণীটি বাস্তব লেবেল থেকে অনেক দূরে।
সুতরাং ওজন সিই হ্রাস করতে পরিবর্তিত হয় এবং এইভাবে ভবিষ্যদ্বাণী এবং সত্য লেবেলের মধ্যে হ্রাস পার্থক্য এবং এইভাবে আরও ভাল নির্ভুলতার দিকে পরিচালিত করে।
উপরের পোস্টগুলিতে যোগ করার পরে, ক্রস-এনট্রপি ক্ষতির সহজতম রূপটি বাইনারি-ক্রস-এন্ট্রপি হিসাবে পরিচিত (বাইনারি শ্রেণিবদ্ধকরণের জন্য ক্ষতির ফাংশন হিসাবে ব্যবহৃত হয়, যেমন লজিস্টিক রিগ্রেশন সহ), তবে সাধারণ সংস্করণটি শ্রেণিবদ্ধ-ক্রস-এন্ট্রপি (ব্যবহৃত) বহু শ্রেণীর শ্রেণিবিন্যাস সমস্যার জন্য ক্ষতির কাজ হিসাবে, যেমন নিউরাল নেটওয়ার্ক সহ))
ধারণাটি একই রয়ে গেছে:
মডেল-গণিত (সফটম্যাক্স) শ্রেণি-সম্ভাবনা যখন প্রশিক্ষণের জন্য টার্গেট লেবেলের জন্য 1-এর কাছাকাছি হয়ে যায় (এক-হট-এনকোডিং সহ উদাহরণস্বরূপ, প্রতিনিধিত্ব করা হয়), তখন সম্পর্কিত সিসিই ক্ষতি হ্রাস শূন্যে পরিণত হয়
অন্যথায় লক্ষ্য শ্রেণীর সাথে সম্পর্কিত সম্ভাব্যতাটি আরও ছোট হওয়ার সাথে সাথে এটি বৃদ্ধি পায়।
নিম্নলিখিত চিত্রটি ধারণাটি দেখায় (চিত্রটি থেকে নোটিশ দিন যে বিসিই কম হয় যখন y এবং p উভয়ই কম হয় বা উভয়ই একই সাথে কম হয়, অর্থাত্ একটি চুক্তি রয়েছে):
ক্রস-এনট্রপি সম্পর্কিত সম্ভাব্য এন্ট্রপি বা কেএল-ডাইভারজেন্সের সাথে ঘনিষ্ঠভাবে সম্পর্কিত যা দুটি সম্ভাব্য বন্টনের মধ্যে দূরত্বকে গণনা করে। উদাহরণস্বরূপ, দুটি বিচ্ছিন্ন পিএমএফের মধ্যে, তাদের মধ্যে সম্পর্কটি নিম্নলিখিত চিত্রটিতে প্রদর্শিত হয়েছে: