আমি কিছুটা গবেষণার জন্য সাধারণ নিউরাল নেটওয়ার্কগুলি লিখতে টেনসরফ্লো ব্যবহার করছি এবং প্রশিক্ষণের সময় 'ন্যান' ওজন নিয়ে আমার অনেক সমস্যা হয়েছিল। অপটিমাইজার পরিবর্তন করা, ক্ষতির পরিবর্তন, উপাত্তের আকার ইত্যাদির মতো অনেকগুলি বিভিন্ন সমাধান আমি চেষ্টা করেছি তবে কোনও লাভ হয়নি। অবশেষে, আমি লক্ষ করেছি যে শিক্ষার হারে পরিবর্তন আমার ওজনে অবিশ্বাস্য তফাত করেছে।
.001 (যা আমি ভেবেছিলাম বেশ রক্ষণশীল) এর লার্নিং রেট ব্যবহার করে, ছোট্ট ফাংশনটি প্রকৃতপক্ষে ক্ষয়ক্ষতি বাড়িয়ে তুলবে। এক যুগের পরে লোকসানের সংখ্যা কয়েক হাজার থেকে ট্রিলিয়ন এবং তার পরে অনন্ত ('নান') এ উঠতে পারে। আমি যখন শেখার হারকে 10001 এ নামিয়েছি, তখন সবকিছু ঠিকঠাক কাজ করেছে।
1) কেন একটি মাত্রার একক ক্রমের এমন প্রভাব রয়েছে?
2) কেন ন্যূনতম ফাংশনটি আক্ষরিকভাবে এর কার্যকারিতাটির বিপরীত সম্পাদন করে এবং ক্ষতিটি সর্বাধিকতর করে? আমার কাছে মনে হয় যে এটি হওয়া উচিত নয়, শেখার হার যাই হোক না কেন।