ক্রস-এনট্রপি বনাম ডাইস-কোপিলিটি লস ফাংশন


27

যখন একটি পিক্সেল সেগমেন্টেশন নিউরাল নেটওয়ার্কগুলি যেমন সম্পূর্ণ কনভোলিউশনাল নেটওয়ার্কগুলি প্রশিক্ষণ দেওয়া হয়, তখন আপনি ডাইস-কোয়ালিটি লোকস ফাংশন বনাম ক্রস-এনট্রপি লোকসান ফাংশন ব্যবহার করার সিদ্ধান্তটি কীভাবে গ্রহণ করবেন?

আমি বুঝতে পারি এটি একটি ছোট প্রশ্ন, তবে অন্যান্য তথ্য কী সরবরাহ করবে তা পুরোপুরি নিশ্চিত নয়। আমি দুটি লোকস ফাংশন সম্পর্কে একগুচ্ছ ডকুমেন্টেশনের দিকে চেয়েছিলাম তবে কখন অন্যটির ওপরে কোনটি ব্যবহার করা যায় তা সম্পর্কে অন্তর্দৃষ্টি উপলব্ধি করতে পারছি না।


উভয় ব্যবহার করতে এবং ফলাফলের সাথে তুলনা করতে কেন হ্যান্ড অন অন পদ্ধতির ব্যবহার করবেন না। প্রয়োগের বিভিন্ন ক্ষেত্রের দিকে তাকিয়ে, লোকসান ফাংশনটির আলোচনাটি বর্ধিত গবেষণার নিজস্ব বিষয়। যেহেতু কনভ্যুশনাল নেটওয়ার্কগুলি এখনও একটি 'আলোচ্য বিষয়', তাই আমি অনুমান করেছি যে বেশিরভাগ কাগজপত্র ভবিষ্যতে এখনও প্রকাশিত হবে।
করুব

উত্তর:


27

পাশা-গুণফল বা অনুরূপ আইওইউ মেট্রিকের উপরে ক্রস-এনট্রপি ব্যবহারের জন্য একটি বাধ্যতামূলক কারণ হ'ল গ্রেডিয়েন্টগুলি আরও ভাল।

ক্রস-এনট্রপিয়ের গ্রেডিয়েন্টগুলি লগইটগুলি মতো কিছু যেখানে সফটম্যাক্স আউটপুট এবং লক্ষ্য is এদিকে, আমরা যদি পার্থক্যযুক্ত আকারে ডাইস সহগ লেখার চেষ্টা করি: বা , তবে ফলস্বরূপ গ্রেডিয়েন্টগুলি আর্ট হয় : এবং । এবং উভয়ই ছোট এবং এমনভাবে গ্রেডিয়েন্টটি বিশাল আকারের দিকে চলে যায় এমন কোনও ক্ষেত্রে কল্পনা করা সহজ । সাধারণভাবে, সম্ভবত মনে হয় প্রশিক্ষণ আরও অস্থির হয়ে উঠবে।পি-টিপিটি2পিটিপি2+ +টি22পিটিপি+ +টিপি2টি2(পি+ +টি)22টি(টি2-পি2)(পি2+ +টি2)2পিটি


লোকেরা সরাসরি পাশা সহগ বা আইওইউ ব্যবহার করার চেষ্টা করার মূল কারণটি হ'ল আসল লক্ষ্য met মেট্রিক্সের সর্বাধিককরণ এবং ক্রস-এনট্রপি কেবলমাত্র একটি প্রক্সি যা ব্যাকপ্রেগেশন ব্যবহার করে সর্বোচ্চ করা সহজ। তদ্ব্যতীত, পাশা সহগ ডিজাইন দ্বারা শ্রেণি ভারসাম্যহীন সমস্যাগুলিতে আরও ভাল সম্পাদন করে:

তবে ক্লাসের ভারসাম্যহীনতার জন্য সাধারণত প্রতিটি শ্রেণীর লোকসানের গুণকগুলি অর্পণ করার মাধ্যমে সাধারণত যত্ন নেওয়া হয়, যেমন খুব সহজেই দেখা যায় এমন কোনও শ্রেণিকে উপেক্ষা করার জন্য নেটওয়ার্কটি খুব বেশি বিতর্কিত করা হয়, সুতরাং এটি স্পষ্ট নয় যে ডাইস সহগ এই ক্ষেত্রে সত্যই প্রয়োজনীয়।


আমি ক্রস-এনট্রপি ক্ষতি দিয়ে শুরু করব, যা প্রশিক্ষণ বিভাগের নেটওয়ার্কগুলির জন্য মানক ক্ষতি বলে মনে হচ্ছে, যদি না ডাইস গুণাগুণ ব্যবহারের সত্যই বাধ্যতামূলক কারণ না থাকে।


পি-টি

3
পাশা ক্ষতির "প্রধান লক্ষ্য" সর্বাধিকীকরণ কখন? আমি মূল কাগজটি যাচাই করেছিলাম এবং তারা যা বলেছিল তা হ'ল "আমরা পরীক্ষামূলকভাবে পর্যবেক্ষণ করেছি যে ফলাফলগুলি একই নেটওয়ার্কের মাধ্যমে গণিতকৃত তুলনায় অনেক ভাল যা নমুনা পুনরায় ওজন সহ বহুজাতিক সংক্রান্ত লজিস্টিক ক্ষতিকে অনুকূল করে তুলেছে” "এটি খুব দৃinc় বিশ্বাসযোগ্য নয়।
নিল জি

@ শিমাও "কুরুচিপূর্ণ" এর মাধ্যমে আপনি ঠিক বলেছেন যে গ্রেডিয়েন্টগুলি বিস্ফোরিত হতে পারে, এটি কি সঠিক?
flawr

17

@ শিমাও এবং @ চেরুব সংক্ষিপ্তসার হিসাবে, কেউ এপ্রিওরি বলতে পারে না যে কোনও একটি নির্দিষ্ট ডেটাसेटে আরও ভাল কাজ করবে work সঠিক উপায় হ'ল উভয় চেষ্টা করে ফলাফলগুলি তুলনা করা। এছাড়াও, দ্রষ্টব্য যে এটি বিভাগকরণের ক্ষেত্রে যখন আসে, তখন "ফলাফলগুলি তুলনা করা " এত সহজ নয় : আইসইউ ভিত্তিক পদক্ষেপ যেমন ডাইস কোয়ালিটিস কেবল বিভাগের মানের কিছু দিকগুলি কভার করে; কিছু অ্যাপ্লিকেশনগুলিতে, বিভিন্ন পদক্ষেপ যেমন গড় পৃষ্ঠের দূরত্ব বা হসডর্ফ পৃষ্ঠের দূরত্ব ব্যবহার করা দরকার। আপনি দেখতে পাচ্ছেন, এমনকি সঠিক মানের মেট্রিকের পছন্দও নগণ্য নয়, সেরা ব্যয়ের ফাংশনটির পছন্দকে ছেড়ে দিন।

আমার ব্যক্তিগতভাবে পাশা সহগের সাথে খুব ভাল অভিজ্ঞতা আছে; শ্রেণি ভারসাম্যহীনতার বিষয়টি আসলেই আশ্চর্য হয়ে যায় (কিছু বিভাগ অন্যের তুলনায় কম পিক্সেল / ভক্সেল দখল করে)। অন্যদিকে, প্রশিক্ষণ ত্রুটির বক্ররেখার সামগ্রিক জগাখিচুড়ি হয়ে যায়: এটি আমাকে রূপান্তর সম্পর্কে একেবারে কোনও তথ্য দেয়নি, তাই এই ক্ষেত্রে ক্রস-এন্ট্রপি জিতেছে। অবশ্যই, যাইহোক বৈধতা ত্রুটি পরীক্ষা করে এটিকে বাইপাস করা উচিত।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.