ক্রস-এন্ট্রপি কী?


95

আমি জানি যে ক্রস-এন্ট্রপি কী তা নিয়ে অনেক ব্যাখ্যা রয়েছে তবে আমি এখনও বিভ্রান্ত।

ক্ষতির কার্যকারিতা বর্ণনা করার জন্য কি কেবল একটি পদ্ধতি? ক্ষতির ফাংশনটি ব্যবহার করে ন্যূনতম সন্ধান করতে আমরা গ্রেডিয়েন্ট বংশদ্ভুত অ্যালগরিদম ব্যবহার করতে পারি?


11
এসও এর জন্য ভাল ফিট নয়। এখানে ডেটাসায়েন্স বোনের সাইটে একটি অনুরূপ প্রশ্ন রয়েছে: ডেটাসায়েন্স.স্ট্যাকেক্সেঞ্জঞ্জ
মহানগরী

উত্তর:


234

ক্রস-এনট্রপি সাধারণত দুটি সম্ভাব্য বন্টনের মধ্যে পার্থক্য প্রমাণ করতে ব্যবহৃত হয়। সাধারণত "সত্য" বিতরণ (আপনার মেশিন লার্নিং অ্যালগরিদম যেটি মেলে চেষ্টা করছে) এক-গরম বিতরণের ক্ষেত্রে প্রকাশিত হয়।

উদাহরণস্বরূপ, ধরুন কোনও নির্দিষ্ট প্রশিক্ষণের উদাহরণের জন্য আসল লেবেল হ'ল বি (সম্ভাব্য লেবেল এ, বি এবং সি এর মধ্যে)। এই প্রশিক্ষণের উদাহরণের জন্য এক-গরম বিতরণ হ'ল:

Pr(Class A)  Pr(Class B)  Pr(Class C)
        0.0          1.0          0.0

আপনি উপরোক্ত সত্য বিতরণটির ব্যাখ্যা করতে পারেন যে প্রশিক্ষণের উদাহরণটিতে ক্লাস এ হওয়ার 0% সম্ভাবনা, বি বি শ্রেণি হওয়ার 100% সম্ভাবনা এবং শ্রেণি সি হওয়ার 0% সম্ভাবনা রয়েছে has

এখন, ধরুন আপনার মেশিন লার্নিং অ্যালগরিদম নিম্নলিখিত সম্ভাব্যতা বিতরণের পূর্বাভাস করেছে:

Pr(Class A)  Pr(Class B)  Pr(Class C)
      0.228        0.619        0.153

সত্য বিতরণের পূর্বাভাস বিতরণ কতটা কাছাকাছি? ক্রস-এনট্রপি ক্ষতি এটিই নির্ধারণ করে। এই সূত্রটি ব্যবহার করুন:

ক্রস এনট্রপি লোকসানের সূত্র

p(x)সত্য সম্ভাবনা বিতরণ কোথায় , এবং q(x)পূর্বাভাসের সম্ভাবনা বন্টন। যোগফলটি তিনটি A, B এবং C এর উপরে রয়েছে, এক্ষেত্রে লোকসানটি 0.479 হয় :

H = - (0.0*ln(0.228) + 1.0*ln(0.619) + 0.0*ln(0.153)) = 0.479

সুতরাং সত্যিকারের বিতরণ থেকে আপনার ভবিষ্যদ্বাণীটি "ভুল" বা "দূরে" is

ক্রস এন্ট্রপি হ'ল সম্ভাব্য ক্ষতির কোনও একটি (অন্য জনপ্রিয় এটি এসভিএম কবজ ক্ষতি) loss এই ক্ষতির ফাংশনগুলি সাধারণত জ (থেটা) হিসাবে লেখা হয় এবং গ্রেডিয়েন্ট বংশোদ্ভূত হওয়ার মধ্যে ব্যবহার করা যেতে পারে, যা পরামিতিগুলি (বা সহগ) সর্বোত্তম মানগুলির দিকে সরানোর জন্য একটি পুনরাবৃত্ত অ্যালগরিদম। নিচে সমীকরণ, আপনি প্রতিস্থাপন করবে J(theta)সঙ্গে H(p, q)। তবে নোট করুন যে আপনাকে H(p, q)প্রথমে প্যারামিটারগুলির সাথে সম্মানের সাথে ডেরাইভেটিভ গণনা করতে হবে ।

গ্রেডিয়েন্ট বংশোদ্ভূত

সুতরাং আপনার মূল প্রশ্নের সরাসরি উত্তর দিতে:

ক্ষতির কার্যকারিতা বর্ণনা করার জন্য কি কেবল এটিই একটি পদ্ধতি?

সঠিক, ক্রস-এনট্রপি দুটি সম্ভাব্যতা বিতরণের মধ্যে ক্ষতির বর্ণনা দেয়। এটি সম্ভাব্য ক্ষতির অন্যতম কার্যকারিতা।

তারপরে আমরা নূন্যতম সন্ধানের জন্য গ্রেডিয়েন্ট বংশদ্ভুত অ্যালগরিদম ব্যবহার করতে পারি।

হ্যাঁ, ক্রস-এন্ট্রপি ক্ষতি ফাংশন গ্রেডিয়েন্ট বংশোদ্ভূত অংশ হিসাবে ব্যবহার করা যেতে পারে।

আরও পড়ুন: টেনসরফ্লো সম্পর্কিত আমার অন্য একটি উত্তর


সুতরাং, ক্রস-এনট্রপি প্রতিটি উদাহরণ এক্সের জন্য সম্ভাবনার যোগফলের মাধ্যমে ক্ষতির বর্ণনা দেয়
থিয়েটিস্ট

সুতরাং, আমরা ত্রুটিটিকে ক্রস-এনট্রপি হিসাবে বর্ণনা করার পরিবর্তে ত্রুটিটিকে দুটি ভেক্টর (কোসাইন মিল / কৌণিক দূরত্ব) এর মধ্যে একটি কোণ হিসাবে বর্ণনা করতে এবং কোণটি ছোট করার চেষ্টা করতে পারি?
থিয়েটিস্ট

4
দৃশ্যত এটি সর্বোত্তম সমাধান নয়, তবে আমি কেবল তাত্ত্বিকভাবে জানতে চেয়েছিলাম, যদি আমরা cosine (dis)similarityকোণের মাধ্যমে ত্রুটিটি বর্ণনা করতে পারি এবং তারপরে কোণটি ছোট করার চেষ্টা করতে পারি।
থিয়েটিস্ট

4
@ স্টিফেন: আমি যে উদাহরণটি দিয়েছি তা যদি আপনি লক্ষ্য করেন তবে p(x)প্রতিটি শ্রেণীর জন্য স্থল-সত্য সম্ভাবনার তালিকা হবে, যা হবে [0.0, 1.0, 0.0। তেমনিভাবে, q(x)ক্লাসগুলির প্রত্যেকের জন্য পূর্বাভাসের সম্ভাবনার তালিকা [0.228, 0.619, 0.153],। H(p, q)তারপরে - (0 * log(2.28) + 1.0 * log(0.619) + 0 * log(0.153))যা 0.479 হয়ে আসে। দ্রষ্টব্য যে পাইথনের np.log()ফাংশনটি ব্যবহার করা সাধারণ , যা আসলে প্রাকৃতিক লগ; এটা কোন ব্যাপার না।
stackoverflowuser2010

4
@ আরআর: সত্য লেবেলটির এক-হট এনকোডিংয়ের জন্য, কেবলমাত্র একটি অ-শূন্য শ্রেণি রয়েছে যা আমরা যত্ন করি। তবে ক্রস-এনট্রপি যে কোনও দুটি সম্ভাব্যতা বিতরণের তুলনা করতে পারে; এটির প্রয়োজন নেই যে তাদের মধ্যে একটির এক-গরম সম্ভাবনা রয়েছে।
stackoverflowuser2010

3

সংক্ষেপে, ক্রস-এন্ট্রপি (সিই) হ'ল সত্য লেবেল থেকে আপনার পূর্বাভাসের মান কত দূর।

এখানে ক্রসটি দুটি বা আরও বেশি বৈশিষ্ট্য / সত্য লেবেলের (যেমন 0, 1) এর মধ্যে এনট্রপি গণনা করে।

এবং এনট্রপি শব্দটি নিজেই এলোমেলোতা বোঝায়, এর এত বড় মূল্যের অর্থ আপনার ভবিষ্যদ্বাণীটি বাস্তব লেবেল থেকে অনেক দূরে।

সুতরাং ওজন সিই হ্রাস করতে পরিবর্তিত হয় এবং এইভাবে ভবিষ্যদ্বাণী এবং সত্য লেবেলের মধ্যে হ্রাস পার্থক্য এবং এইভাবে আরও ভাল নির্ভুলতার দিকে পরিচালিত করে।


1

উপরের পোস্টগুলিতে যোগ করার পরে, ক্রস-এনট্রপি ক্ষতির সহজতম রূপটি বাইনারি-ক্রস-এন্ট্রপি হিসাবে পরিচিত (বাইনারি শ্রেণিবদ্ধকরণের জন্য ক্ষতির ফাংশন হিসাবে ব্যবহৃত হয়, যেমন লজিস্টিক রিগ্রেশন সহ), তবে সাধারণ সংস্করণটি শ্রেণিবদ্ধ-ক্রস-এন্ট্রপি (ব্যবহৃত) বহু শ্রেণীর শ্রেণিবিন্যাস সমস্যার জন্য ক্ষতির কাজ হিসাবে, যেমন নিউরাল নেটওয়ার্ক সহ))

ধারণাটি একই রয়ে গেছে:

  1. মডেল-গণিত (সফটম্যাক্স) শ্রেণি-সম্ভাবনা যখন প্রশিক্ষণের জন্য টার্গেট লেবেলের জন্য 1-এর কাছাকাছি হয়ে যায় (এক-হট-এনকোডিং সহ উদাহরণস্বরূপ, প্রতিনিধিত্ব করা হয়), তখন সম্পর্কিত সিসিই ক্ষতি হ্রাস শূন্যে পরিণত হয়

  2. অন্যথায় লক্ষ্য শ্রেণীর সাথে সম্পর্কিত সম্ভাব্যতাটি আরও ছোট হওয়ার সাথে সাথে এটি বৃদ্ধি পায়।

নিম্নলিখিত চিত্রটি ধারণাটি দেখায় (চিত্রটি থেকে নোটিশ দিন যে বিসিই কম হয় যখন y এবং p উভয়ই কম হয় বা উভয়ই একই সাথে কম হয়, অর্থাত্ একটি চুক্তি রয়েছে):

এখানে চিত্র বর্ণনা লিখুন

ক্রস-এনট্রপি সম্পর্কিত সম্ভাব্য এন্ট্রপি বা কেএল-ডাইভারজেন্সের সাথে ঘনিষ্ঠভাবে সম্পর্কিত যা দুটি সম্ভাব্য বন্টনের মধ্যে দূরত্বকে গণনা করে। উদাহরণস্বরূপ, দুটি বিচ্ছিন্ন পিএমএফের মধ্যে, তাদের মধ্যে সম্পর্কটি নিম্নলিখিত চিত্রটিতে প্রদর্শিত হয়েছে:

এখানে চিত্র বর্ণনা লিখুন

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.