দেড় বছর পরে, আমি আমার উত্তরটিতে ফিরে আসি কারণ আমার আগের উত্তরটি ভুল ছিল।
ব্যাচের আকারের প্রভাবগুলি উল্লেখযোগ্যভাবে শিখছে। আপনি যখন আপনার নেটওয়ার্কের মাধ্যমে ব্যাচ রাখেন তখন যা হয় তা হ'ল আপনি গ্রেডিয়েন্টগুলি গড় করেন। ধারণাটি হ'ল যদি আপনার ব্যাচের আকার যথেষ্ট পরিমাণে বড় হয় তবে এটি সম্পূর্ণ ডেটাসেটের গ্রেডিয়েন্টটি কী হবে তার একটি স্থিতিশীল পর্যাপ্ত অনুমান সরবরাহ করবে। আপনার ডেটাসেট থেকে নমুনা গ্রহণ করে, আপনি গণনা ব্যয় উল্লেখযোগ্যভাবে হ্রাস করার সময় গ্রেডিয়েন্টটি অনুমান করেন। আপনি যত নীচে যান, আপনার ঘনিষ্ঠতা কম নির্ভুল হবে তবে কিছু ক্ষেত্রে এই গোলমাল গ্রেডিয়েন্টগুলি আসলে স্থানীয় মিনিমা থেকে পালাতে সহায়তা করতে পারে। যখন এটি খুব কম থাকে, আপনার ডেটা গোলমাল হলে আপনার নেটওয়ার্কের ওজন কেবল চারপাশে লাফিয়ে উঠতে পারে এবং এটি শিখতে অক্ষম হতে পারে বা এটি খুব ধীরে ধীরে রূপান্তরিত হয়, এইভাবে মোট গণনার সময়কে নেতিবাচকভাবে প্রভাবিত করে।
ব্যাচিংয়ের আরেকটি সুবিধা হ'ল জিপিইউ গণনার জন্য, জিপিইউগুলি নিউরাল নেটওয়ার্কগুলিতে ঘটে যাওয়া গণনার সমান্তরালে খুব ভাল তবে যদি গণনার অংশটি একই থাকে (উদাহরণস্বরূপ, আপনার নেটওয়ার্কের একই ওজন ম্যাট্রিক্সের উপরে বারবার ম্যাট্রিক্স গুণ)। এর অর্থ 16 টি ব্যাচের আকার 8 টি ব্যাচের আকারের দ্বিগুণের চেয়ে কম গ্রহণ করবে।
আপনার যদি বড় ব্যাচের আকারের প্রয়োজন হয় তবে এটি আপনার জিপিইউয়ের সাথে খাপ খায় না, আপনি একটি ছোট ব্যাচ খাওয়াতে পারেন, গ্রেডিয়েন্ট অনুমানগুলি সংরক্ষণ করতে পারেন এবং এক বা একাধিক ব্যাচ ফিড করতে পারেন এবং তারপরে একটি ওজন আপডেট করতে পারেন। এইভাবে আপনি আরও স্থিতিশীল গ্রেডিয়েন্ট পাবেন কারণ আপনি আপনার ভার্চুয়াল ব্যাচের আকার বাড়িয়েছেন।
ভুল, পুরানো উত্তর: [[না, ব্যাচ_সাইজ কেবলমাত্র আপনার শেখার গতিকে প্রভাবিত করে, শেখার মানকে নয় learning ব্যাচ_সাইজেও 2 এর ক্ষমতা হওয়ার দরকার নেই, যদিও আমি বুঝতে পেরেছি যে নির্দিষ্ট প্যাকেজগুলি কেবল 2 এর ক্ষমতা দেয় GP ।]]]]