অটোরকোডারগুলির জন্য ক্ষয় ফাংশন

আমি কিছুটা অটোএনকডার ব্যবহার করছি এবং টেনসরফ্লো দিয়ে আমি এমন একটি মডেল তৈরি করেছি যা এমএনআইএসটি ডেটাসেটটি পুনর্গঠন করার চেষ্টা করে।

আমার নেটওয়ার্কটি খুব সহজ: এক্স, ই 1, ই 2, ডি 1, ওয়াই, যেখানে ই 1 এবং ই 2 স্তরগুলি এনকোডিং করছে, ডি 2 এবং ওয়াই স্তরগুলি ডিকোডিং করছে (এবং ওয়াই পুনঃনির্মাণ আউটপুট)।

এক্স এর 784 ইউনিট রয়েছে, ই 1 এর 100 টি, ই 2 এর 50 টি, ডি 1 আবার 100 এবং আবার ওয়াই 784 রয়েছে।

আমি ই -1, ই 2, ডি 1 এবং ওয়াইয়ের স্তরগুলির জন্য অ্যাক্টিভেশন ফাংশন হিসাবে সিগময়েডগুলি ব্যবহার করছি p ইনপুটগুলি [0,1] এ রয়েছে এবং তাই ফলাফলগুলি হওয়া উচিত।

ঠিক আছে, আমি ক্রস এনট্রপিটি ক্ষতির ফাংশন হিসাবে ব্যবহার করার চেষ্টা করেছি, তবে আউটপুটটি সর্বদা একটি ব্লব ছিল এবং আমি লক্ষ্য করেছি যে এক্স থেকে ই 1 পর্যন্ত ওজন সর্বদা শূন্য-মানযুক্ত ম্যাট্রিক্সে রূপান্তরিত করে।

অন্যদিকে ক্ষতির ফাংশন হিসাবে স্কোয়ার ত্রুটিগুলি বোঝাতে একটি ভাল ফলাফল পাওয়া যাবে এবং আমি এখন ইনপুটগুলি পুনর্গঠন করতে সক্ষম am

কেন যে এত? আমি ভেবেছিলাম আমি মানগুলি সম্ভাবনা হিসাবে ব্যাখ্যা করতে পারি এবং তাই ক্রস এনট্রপি ব্যবহার করতে পারি তবে স্পষ্টতই আমি কিছু ভুল করছি।

— AkiRoss
সূত্র

আপনি প্রথম স্তরগুলিতে অ্যাক্টিভেশন ফাংশনগুলির জন্য সিগময়েড ব্যবহার করে উল্লেখ করেছেন। CS231n নোটগুলিতে আরও সম্পূর্ণরূপে ব্যাখ্যা করা হিসাবে সেগুলি "স্যাচুরেশন" প্রদর্শন করে । আপনি কি আরএলইউ এর মতো আরও একটি অ্যাক্টিভেশন ফাংশন চেষ্টা করেছেন?

— জেরি

আমি অন্য চেষ্টা করে থাকলে এখনই মনে করতে পারছি না, তবে ভাগ করে নেওয়ার জন্য ধন্যবাদ!

— আকিরোস

আমি মনে করি এর সর্বোত্তম উত্তরটি হ'ল ক্রস-এনট্রপি লোকসান ফাংশনটি এই নির্দিষ্ট কাজের পক্ষে ঠিক উপযুক্ত নয়।

এই পদ্ধতির গ্রহণ করার সময়, আপনি মূলত সত্য MNIST ডেটা বাইনারি বলে দিচ্ছেন এবং আপনার পিক্সেলের তীব্রতা প্রতিটি পিক্সেল 'চালু রয়েছে' এমন সম্ভাবনার প্রতিনিধিত্ব করে। তবে আমরা জানি এটি আসলে ঘটনাটি নয়। এই অন্তর্নিহিত অনুমানের ভুলটি তখন আমাদের সমস্যা তৈরি করে।

আমরা ব্যয় ফাংশনটিও দেখতে পারি এবং কেন এটি অনুপযুক্ত হতে পারে তা দেখতে পারি। ধরা যাক আমাদের টার্গেট পিক্সেলের মান 0.8। যদি আমরা এমএসই ক্ষতি, এবং ক্রস-এনট্রপি ক্ষতি (এটি সাধারণকরণ যাতে এটি সর্বনিম্ন শূন্যের উপরে থাকে), আমরা পাই: $- [ (\text{target}) \log (\text{prediction}) + (1 - \text{target}) \log (1 - \text{prediction}) ]$

আমরা দেখতে পাচ্ছি যে ক্রস-এনট্রপি ক্ষতি অসম্পূর্ণ। আমরা কেন এটি চাই? এই ০.৮ পিক্সেলের তুলনায় ০.৯ এর পূর্বাভাস দেওয়ার চেয়ে 0.9 অনুমান করা কি সত্যই খারাপ? আমি বলব এটি কিছু ভাল, সম্ভবত কিছু আছে।

আমরা সম্ভবত আরও বিশদে যেতে পারি এবং এটি বুঝতে পারি যে এর ফলে আপনি যে নির্দিষ্ট ব্লবগুলি দেখছেন তাতে বাড়ে। আমি একটি অনুমানকে ঝুঁকি দিয়েছি যে এটি কারণ যে অঞ্চলে আপনি পুষ্পটি দেখতে পাচ্ছেন সেখানে পিক্সেলের তীব্রতা গড়ে গড়ে 0.5 এর উপরে। তবে সাধারণভাবে এটি অন্তর্নিহিত মডেলিং অনুমানগুলির একটি ক্ষেত্রে যা আপনি ডেটার জন্য অনুপযুক্ত হয়ে পড়েছেন।

আশা করি এইটি কাজ করবে!

— nlml
সূত্র

যদি ইনপুট 0 এবং 1 এর মধ্যে ভেসে থাকে তবে ক্ষতির কোনও কার্যকারিতা উপযুক্ত?

— জেমশিত ইস্কেন্দ্রভ

বাইনারি ক্রস এন্ট্রপি ক্ষতি

— টরাইফ