ইন ডীপ শেখার জন্য বড়-ব্যাচ প্রশিক্ষণ: সাধারণীকরণ গ্যাপ এবং আকস্মাত্ মিনিমা আহা বিবৃতি দুয়েক আছে:
অনুশীলন করে দেখা গেছে যে বৃহত্তর ব্যাচ ব্যবহার করার সময় মডেলটির গুণমানের একটি অবক্ষয় ঘটে, যেমনটি সাধারণকরণের ক্ষমতা দ্বারা পরিমাপ করা হয় [...]
বৃহত্তর ব্যাচের পদ্ধতিগুলি প্রশিক্ষণ এবং পরীক্ষার ক্রিয়াগুলির তীক্ষ্ণ মিনিমাইজারগুলিতে রূপান্তরিত করে — এবং এটি সুপরিচিত, তীব্র মিনিমা গরিব সাধারণীকরণের দিকে নিয়ে যায়। এন। বিপরীতে, ছোট-ব্যাচের পদ্ধতিগুলি ধারাবাহিকভাবে ফ্ল্যাট মিনিমাইজারগুলিতে রূপান্তরিত করে এবং আমাদের পরীক্ষাগুলি একটি সাধারণভাবে ধারণাকে সমর্থন করে যে এটি গ্রেডিয়েন্ট অনুমানের অন্তর্নিহিত গোলমালের কারণে।
থেকে আমার কর্তা থিসিস : অত: পর মিনি- ব্যাচ আকার প্রভাব পছন্দমত:
- একীকরণ অবধি প্রশিক্ষণের সময় : মনে হচ্ছে একটি মিষ্টি স্পট রয়েছে। যদি ব্যাচের আকার খুব ছোট হয় (উদাহরণস্বরূপ 8), এই সময়টি উপরে যায়। যদি ব্যাচের আকার বিশাল হয় তবে এটি সর্বনিম্নের চেয়েও বেশি।
- প্রতি যুগের প্রশিক্ষণের সময় : বড় গণনাগুলি দ্রুত (দক্ষ)
- মডেল মানের ফলাফল : উন্নততর সাধারণীকরণের কারণে কম তত ভাল (?)
হাইপার-প্যারামিটার ইন্টারঅ্যাকশনগুলি নোট করা গুরুত্বপূর্ণ : ব্যাচের আকার অন্যান্য হাইপার-প্যারামিটারগুলির সাথে ইন্টারঅ্যাক্ট করতে পারে, বিশেষত উল্লেখযোগ্য হার শিখার। কিছু পরীক্ষা-নিরীক্ষায় এই মিথস্ক্রিয়াটি মডেল মানের উপর একা ব্যাচের আকারের প্রভাবকে আলাদা করা কঠিন করে তুলতে পারে। আর একটি শক্তিশালী ইন্টারঅ্যাকশন নিয়মিতকরণের জন্য তাড়াতাড়ি থামার সাথে।
আরো দেখুন