পূর্ণ ডেটাসেটের বিপরীতে মিনিবাচ ব্যবহারের মূল সুবিধাটি স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত 1 এর মৌলিক ধারণায় ফিরে যায় ।
ব্যাচের গ্রেডিয়েন্ট বংশোদ্ভূতিতে, আপনি সম্ভাব্য পরিমাণে তথ্যের উপরে গড় হিসাবে পুরো ডেটাসেটের উপরে গ্রেডিয়েন্টটি গুণান। এটি করতে প্রচুর স্মৃতি লাগে। তবে আসল প্রতিবন্ধকতা হ'ল ব্যাচ গ্রেডিয়েন্ট ট্র্যাজেক্টোরি ল্যান্ড আপনি খারাপ জায়গায় (স্যাডল পয়েন্ট)।
অন্যদিকে খাঁটি এসজিডিতে, আপনি ডেটাসেটের একক দৃষ্টিতে গ্রেডিয়েন্ট গণনা করে (বিয়োগ চিহ্ন) আপনার পরামিতিগুলি আপডেট করেন update যেহেতু এটি একটি এলোমেলো ডাটা পয়েন্টের উপর ভিত্তি করে, এটি খুব কোলাহলপূর্ণ এবং ব্যাচের গ্রেডিয়েন্ট থেকে দূরে কোনও দিকে যেতে পারে। যাইহোক, কোলাহল হ'ল আপনি নন-উত্তল অপ্টিমাইজেশনে যা চান তা হ'ল কারণ এটি আপনাকে স্যাডল পয়েন্ট বা স্থানীয় মিনিমা থেকে রক্ষা করতে সহায়তা করে ([2] এর উপপাদ্য 6)। অসুবিধাটি এটি মারাত্মকভাবে অক্ষম এবং একটি ভাল সমাধান খুঁজে পাওয়ার জন্য আপনাকে পুরো ডেটাসেটটি বহুবার লুপ করতে হবে।
মিনিব্যাচ পদ্ধতিটি এমন একটি আপস যা আপেক্ষিক তাত্ক্ষণিক সংযোগ অর্জনের সময় প্রতিটি গ্রেডিয়েন্ট আপডেটে পর্যাপ্ত শব্দকে সংযুক্ত করে।
1 বোটোউ, এল। (2010)। স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত সঙ্গে বৃহত আকারের মেশিন লার্নিং। COMPSTAT'2010 (পৃষ্ঠা 177-186) এর কার্যক্রমে। ফিজিকা-ভার্লাগ এইচডি।
[2] জি, আর।, হুয়াং, এফ।, জিন, সি, এবং ইউয়ান, ওয়াই (2015, জুন)। টেনসর পচন জন্য স্যাডল পয়েন্টস-অনলাইন স্টোকাস্টিক গ্রেডিয়েন্ট থেকে পালানো। সিওএলটি (পিপি। 797-842) এ।
সম্পাদনা:
আমি ইয়ান লেকুনের ফেসবুকে এই মন্তব্যটি দেখেছি, যা এই প্রশ্নের উপর একটি নতুন দৃষ্টিভঙ্গি দেয় (দুঃখিত fb- এ কীভাবে লিঙ্ক করবেন জানি না।)
বড় মিনিবাসে প্রশিক্ষণ দেওয়া আপনার স্বাস্থ্যের পক্ষে খারাপ। আরও গুরুত্বপূর্ণ, এটি আপনার পরীক্ষার ত্রুটির জন্য খারাপ। বন্ধুরা 32 টির চেয়ে বড় মিনিব্যাচগুলি ব্যবহার করতে দেয় না Let's আসুন এটির মুখোমুখি হন: কেবলমাত্র লোকেরা 2012 সাল থেকে একের বেশি মনিব্যাচ আকারে স্যুইচ করেছে, কারণ জিপিইউ 32 বছরের চেয়ে কম ব্যাচের আকারের জন্য অদক্ষ। এটি একটি ভয়ানক কারণ। এর অর্থ কেবল আমাদের হার্ডওয়্যার চুষে নেওয়া।
তিনি এই কাগজটি উদ্ধৃত করেছেন যা কিছুদিন আগে (এপ্রিল 2018) সবেমাত্র আরএক্সভিতে পোস্ট করা হয়েছিল, যা পড়ার মতো,
ডমিনিক মাস্টার্স, কার্লো লুশি, ডিপ নিউরাল নেটওয়ার্কগুলির জন্য ছোট্ট ব্যাচের প্রশিক্ষণ পুনর্বিবেচনা : আরএক্সআইভি: 1804.07612v1
বিমূর্ত থেকে,
বৃহত মিনি-ব্যাচগুলির ব্যবহারের ফলে উপলব্ধ গণনামূলক সমান্তরালতা বৃদ্ধি পায়, তবে ছোট ব্যাচের প্রশিক্ষণে উন্নত সাধারণকরণের কার্য সম্পাদন দেখানো হয়েছে ...
সেরা পারফরম্যান্স অবিচ্ছিন্নভাবে মি-ব্যাচ আকারের জন্য মি = 2 এবং এম = 32 এর মধ্যে প্রাপ্ত হয়েছে, যা সাম্প্রতিক কাজের সাথে হাজারে মিনি-ব্যাচের আকারগুলির ব্যবহারের পক্ষে তুলনা করে।