মিনি-ব্যাচের আকার চয়ন করার জন্য কি কোনও নিয়ম আছে?


21

নিউরাল নেটওয়ার্কগুলি প্রশিক্ষণ দেওয়ার সময়, একটি হাইপারপ্যারামিটার হ'ল একটি মিনিব্যাচের আকার। সাধারণ পছন্দগুলি প্রতি মিনি ব্যাচটিতে 32, 64 এবং 128 টি উপাদান।

মিনি-ব্যাচ কত বড় হতে হবে এমন কোনও নিয়ম / নির্দেশিকা রয়েছে? কোন প্রকাশনা যা প্রশিক্ষণের উপর প্রভাবটি তদন্ত করে?


স্মৃতিতে ফিটিং ছাড়া আর কি?
এহসান এম। কেরমানি

হ্যাঁ. উদাহরণস্বরূপ, এমন কোনও প্রকাশনা কি বলেছে যে "ব্যাচের আকারটি আরও বড়, তত ভাল" (যতক্ষণ এটি স্মৃতিতে ফিট থাকে)?
মার্টিন থোমা

@ এহসানএম.কর্মানি আমার কাছে মনে হয় এটি কার্যকর হয় না। আমি সিআইএফএআর -100 এ বেশ কয়েকটি রান করেছি এবং ব্যাচের আকারের উপর নির্ভর করে আমি বিভিন্ন ফলাফল পেয়েছি (তাড়াতাড়ি থামার সাথে সাথেই যাতে ওভারফিটিং কোনও সমস্যা না হয়)
মার্টিন থোমা

3
বড় গণনাগুলি দ্রুত (দক্ষ), আরও কম দ্রুত রূপান্তরিত হয়, আরও ভাল করে তোলে; cf. স্টোকাস্টিক অপটিমাইজেশন এবং এই আরএনএন সমীক্ষার জন্য দক্ষ মিনি ব্যাচের দক্ষ প্রশিক্ষণ । একটি মিষ্টি স্পট আছে যা আপনি আপনার সমস্যার জন্য অনুগতভাবে খুঁজে পান।
এমরে

2
ব্লি এট আল-এর এই অতি অন্তর্দৃষ্টিপূর্ণ কাগজটি সবেমাত্র প্রকাশিত হয়েছে: স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত হিসাবে আনুমানিক বায়েশিয়ান অনুমান
এমের

উত্তর:


22

ইন ডীপ শেখার জন্য বড়-ব্যাচ প্রশিক্ষণ: সাধারণীকরণ গ্যাপ এবং আকস্মাত্ মিনিমা আহা বিবৃতি দুয়েক আছে:

অনুশীলন করে দেখা গেছে যে বৃহত্তর ব্যাচ ব্যবহার করার সময় মডেলটির গুণমানের একটি অবক্ষয় ঘটে, যেমনটি সাধারণকরণের ক্ষমতা দ্বারা পরিমাপ করা হয় [...]

বৃহত্তর ব্যাচের পদ্ধতিগুলি প্রশিক্ষণ এবং পরীক্ষার ক্রিয়াগুলির তীক্ষ্ণ মিনিমাইজারগুলিতে রূপান্তরিত করে — এবং এটি সুপরিচিত, তীব্র মিনিমা গরিব সাধারণীকরণের দিকে নিয়ে যায়। এন। বিপরীতে, ছোট-ব্যাচের পদ্ধতিগুলি ধারাবাহিকভাবে ফ্ল্যাট মিনিমাইজারগুলিতে রূপান্তরিত করে এবং আমাদের পরীক্ষাগুলি একটি সাধারণভাবে ধারণাকে সমর্থন করে যে এটি গ্রেডিয়েন্ট অনুমানের অন্তর্নিহিত গোলমালের কারণে।

থেকে আমার কর্তা থিসিস : অত: পর মিনি- ব্যাচ আকার প্রভাব পছন্দমত:

  • একীকরণ অবধি প্রশিক্ষণের সময় : মনে হচ্ছে একটি মিষ্টি স্পট রয়েছে। যদি ব্যাচের আকার খুব ছোট হয় (উদাহরণস্বরূপ 8), এই সময়টি উপরে যায়। যদি ব্যাচের আকার বিশাল হয় তবে এটি সর্বনিম্নের চেয়েও বেশি।
  • প্রতি যুগের প্রশিক্ষণের সময় : বড় গণনাগুলি দ্রুত (দক্ষ)
  • মডেল মানের ফলাফল : উন্নততর সাধারণীকরণের কারণে কম তত ভাল (?)

হাইপার-প্যারামিটার ইন্টারঅ্যাকশনগুলি নোট করা গুরুত্বপূর্ণ : ব্যাচের আকার অন্যান্য হাইপার-প্যারামিটারগুলির সাথে ইন্টারঅ্যাক্ট করতে পারে, বিশেষত উল্লেখযোগ্য হার শিখার। কিছু পরীক্ষা-নিরীক্ষায় এই মিথস্ক্রিয়াটি মডেল মানের উপর একা ব্যাচের আকারের প্রভাবকে আলাদা করা কঠিন করে তুলতে পারে। আর একটি শক্তিশালী ইন্টারঅ্যাকশন নিয়মিতকরণের জন্য তাড়াতাড়ি থামার সাথে।

আরো দেখুন


@ নীলস্ল্যাটার আপনি কি আমার (এখন সম্প্রদায়ের উইকি) উত্তরে আপনার মন্তব্য যুক্ত করতে চান?
মার্টিন থোমা

আমি জেনারেল হিসাবে উত্তরটি পছন্দ করি। তবুও আমি একটি বিশেষ উদাহরণে খুব ছোট , বিশাল এবং মিনি-ব্যাচ কী কী তা সম্পর্কে একটি সংখ্যা থাকার জন্য প্রশংসা করব ।
সুতরাং এস

@ সোস মিনি-ব্যাচটি কেবল একটি পদ। "মিনি" নির্দিষ্ট আকারের উল্লেখ করে না, তবে এর অর্থ কেবল এখানে 1 টিরও বেশি উদাহরণ রয়েছে এবং মোট প্রশিক্ষণের সেটের চেয়ে কম। আমি "খুব ছোট" হিসাবে মনে করি <= 8 (আমি কেবল উত্তরটি সম্পাদনা করেছি)। আমি এর জন্য প্রাচীর-ঘড়ির প্রশিক্ষণের সময়টিতে চরম (5x এরও বেশি) বৃদ্ধিও পরিমাপ করেছি। সাধারণ 64৪ বা 128 এর মতো কিছু। "বিশাল" কী তা আমি খুব বেশি নিশ্চিত নই; আমি মনে করি এটি হার্ডওয়ারের উপর নির্ভর করে।
মার্টিন থোমা

এই উত্তরটি উত্তরগুলির চেয়ে আরও বেশি প্রশ্ন জিজ্ঞাসা করে। এই মিষ্টি স্পটটি কোথায় (সম্ভবত কোনও গ্রাফ সাহায্য করবে)? এটি শিখার হার এবং তাড়াতাড়ি থামার সাথে কীভাবে যোগাযোগ করে?
এক্সজেসিএল

উত্তরটি নেটওয়ার্ক এবং ডেটাসেটের উপর নির্ভর করে। অতএব নির্দিষ্ট নম্বর দেওয়ার অর্থ হয় না এবং সুতরাং একটি গ্রাফ সাহায্য করবে না। অন্যান্য হাইপারপ্যারামিটারগুলির সাথে মিথস্ক্রিয়া সম্পর্কে: আমি নিশ্চিতভাবে জানি না। এটি ব্যবহার করে দেখুন এবং আপনার ফলাফলগুলি প্রকাশ করুন :-)
মার্টিন থোমা
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.