পাশা-গুণফল বা অনুরূপ আইওইউ মেট্রিকের উপরে ক্রস-এনট্রপি ব্যবহারের জন্য একটি বাধ্যতামূলক কারণ হ'ল গ্রেডিয়েন্টগুলি আরও ভাল।
ক্রস-এনট্রপিয়ের গ্রেডিয়েন্টগুলি লগইটগুলি মতো কিছু যেখানে সফটম্যাক্স আউটপুট এবং লক্ষ্য is এদিকে, আমরা যদি পার্থক্যযুক্ত আকারে ডাইস সহগ লেখার চেষ্টা করি: বা , তবে ফলস্বরূপ গ্রেডিয়েন্টগুলি আর্ট হয় : এবং । এবং উভয়ই ছোট এবং এমনভাবে গ্রেডিয়েন্টটি বিশাল আকারের দিকে চলে যায় এমন কোনও ক্ষেত্রে কল্পনা করা সহজ । সাধারণভাবে, সম্ভবত মনে হয় প্রশিক্ষণ আরও অস্থির হয়ে উঠবে।পি - টিপিটি2 পি টিপি2+ টি22 পি টিপি + টিপি2 টি2( পি + টি )22 টি ( টি2- পি2)( পি2+ +টি2)2পিটি
লোকেরা সরাসরি পাশা সহগ বা আইওইউ ব্যবহার করার চেষ্টা করার মূল কারণটি হ'ল আসল লক্ষ্য met মেট্রিক্সের সর্বাধিককরণ এবং ক্রস-এনট্রপি কেবলমাত্র একটি প্রক্সি যা ব্যাকপ্রেগেশন ব্যবহার করে সর্বোচ্চ করা সহজ। তদ্ব্যতীত, পাশা সহগ ডিজাইন দ্বারা শ্রেণি ভারসাম্যহীন সমস্যাগুলিতে আরও ভাল সম্পাদন করে:
তবে ক্লাসের ভারসাম্যহীনতার জন্য সাধারণত প্রতিটি শ্রেণীর লোকসানের গুণকগুলি অর্পণ করার মাধ্যমে সাধারণত যত্ন নেওয়া হয়, যেমন খুব সহজেই দেখা যায় এমন কোনও শ্রেণিকে উপেক্ষা করার জন্য নেটওয়ার্কটি খুব বেশি বিতর্কিত করা হয়, সুতরাং এটি স্পষ্ট নয় যে ডাইস সহগ এই ক্ষেত্রে সত্যই প্রয়োজনীয়।
আমি ক্রস-এনট্রপি ক্ষতি দিয়ে শুরু করব, যা প্রশিক্ষণ বিভাগের নেটওয়ার্কগুলির জন্য মানক ক্ষতি বলে মনে হচ্ছে, যদি না ডাইস গুণাগুণ ব্যবহারের সত্যই বাধ্যতামূলক কারণ না থাকে।