আমি যতদূর বুঝতে পেরেছি, ব্যাচের আদর্শটি সমস্ত ইনপুট বৈশিষ্ট্যগুলিকে একটি এককের সাধারণ বিতরণে একটি স্তরকে স্বাভাবিক করে , । বর্তমান মিনি-ব্যাচের জন্য তাদের মানগুলি পরিমাপ করে গড় এবং প্রকরণটি অনুমান করা হয়।
সাধারণীকরণের পরে ইনপুটগুলি স্কেলার মানগুলি দ্বারা স্কেল করে স্থানান্তরিত করা হয়:
(আমি এখানে ভুল হলে আমাকে সংশোধন করুন - এখান থেকে আমি কিছুটা অনিশ্চিত হওয়া শুরু করি))
এবং স্কেলারের মান এবং প্রতিটি ব্যাচ-নিয়মিত স্তরের জন্য একটি করে জোড়া থাকে। তারা ব্যাকপ্রপ এবং এসজিডি ব্যবহার করে ওজন সহ শিখেছে।
আমার প্রশ্ন হ'ল এই প্যারামিটারগুলি কি অপ্রয়োজনীয় নয় কারণ ইনপুটগুলি কোনওভাবেই স্তরটির ওজন দ্বারা মাপানো যায় এবং স্থানান্তরিত করা যায়। অন্য কথায়, যদি
এবং
তারপর
যেখানে এবং ।
সুতরাং নেটওয়ার্কটি এগুলি যুক্ত করার বিন্দুটি কী ইতিমধ্যে স্কেল এবং শিফ্ট শেখার জন্য সক্ষম? নাকি আমি পুরোপুরি ভুল বোঝাবুঝি করছি?