সমস্ত প্রশিক্ষণের ডেটা সহ মিনি ব্যাচের আকার কেন একক "ব্যাচ" এর চেয়ে ভাল?


40

আমি প্রায়শই পড়েছি যে ডিপ লার্নিং মডেলগুলির ক্ষেত্রে নিয়মিত অনুশীলনটি হ'ল বিভিন্ন প্রশিক্ষণ পর্বগুলির উপরে মিনি ব্যাচগুলি (সাধারণত একটি ছোট, 32/64) প্রয়োগ করা। আমি এর পিছনে কারণটি সত্যই বুঝতে পারি না।

আমি ভুল না হলে ব্যাচের আকারটি প্রশিক্ষণের পুনরাবৃত্তি চলাকালীন মডেলটির দ্বারা দেখা ট্রেনিংয়ের সংখ্যা; এবং প্রশিক্ষণের প্রতিটি উদাহরণ যখন মডেলটির দ্বারা দেখা যায় তখন যুগটি সম্পূর্ণ পালা হয়। যদি তা হয়, তবে আমি প্রশিক্ষণের উদাহরণগুলির প্রায় একটি তুচ্ছ সাবসেটের মাধ্যমে পুনরাবৃত্তি করার সুবিধাটি দেখতে পাচ্ছি না "সর্বাধিক ব্যাচ" প্রয়োগের বিপরীতে মডেলটিতে প্রতিটি ঘুরে পাওয়া যায় এমন সমস্ত প্রশিক্ষণের উদাহরণগুলি প্রকাশ করে (অবশ্যই ধরে নিই, যথেষ্ট স্মৃতি)। এই পদ্ধতির সুবিধা কী?


1
এই উত্তরটি চেকআউট করুন ।
Icyblade



উত্তর:


46

পূর্ণ ডেটাসেটের বিপরীতে মিনিবাচ ব্যবহারের মূল সুবিধাটি স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত 1 এর মৌলিক ধারণায় ফিরে যায় ।

ব্যাচের গ্রেডিয়েন্ট বংশোদ্ভূতিতে, আপনি সম্ভাব্য পরিমাণে তথ্যের উপরে গড় হিসাবে পুরো ডেটাসেটের উপরে গ্রেডিয়েন্টটি গুণান। এটি করতে প্রচুর স্মৃতি লাগে। তবে আসল প্রতিবন্ধকতা হ'ল ব্যাচ গ্রেডিয়েন্ট ট্র্যাজেক্টোরি ল্যান্ড আপনি খারাপ জায়গায় (স্যাডল পয়েন্ট)।

অন্যদিকে খাঁটি এসজিডিতে, আপনি ডেটাসেটের একক দৃষ্টিতে গ্রেডিয়েন্ট গণনা করে (বিয়োগ চিহ্ন) আপনার পরামিতিগুলি আপডেট করেন update যেহেতু এটি একটি এলোমেলো ডাটা পয়েন্টের উপর ভিত্তি করে, এটি খুব কোলাহলপূর্ণ এবং ব্যাচের গ্রেডিয়েন্ট থেকে দূরে কোনও দিকে যেতে পারে। যাইহোক, কোলাহল হ'ল আপনি নন-উত্তল অপ্টিমাইজেশনে যা চান তা হ'ল কারণ এটি আপনাকে স্যাডল পয়েন্ট বা স্থানীয় মিনিমা থেকে রক্ষা করতে সহায়তা করে ([2] এর উপপাদ্য 6)। অসুবিধাটি এটি মারাত্মকভাবে অক্ষম এবং একটি ভাল সমাধান খুঁজে পাওয়ার জন্য আপনাকে পুরো ডেটাসেটটি বহুবার লুপ করতে হবে।

মিনিব্যাচ পদ্ধতিটি এমন একটি আপস যা আপেক্ষিক তাত্ক্ষণিক সংযোগ অর্জনের সময় প্রতিটি গ্রেডিয়েন্ট আপডেটে পর্যাপ্ত শব্দকে সংযুক্ত করে।

1 বোটোউ, এল। (2010)। স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত সঙ্গে বৃহত আকারের মেশিন লার্নিং। COMPSTAT'2010 (পৃষ্ঠা 177-186) এর কার্যক্রমে। ফিজিকা-ভার্লাগ এইচডি।

[2] জি, আর।, হুয়াং, এফ।, জিন, সি, এবং ইউয়ান, ওয়াই (2015, জুন)। টেনসর পচন জন্য স্যাডল পয়েন্টস-অনলাইন স্টোকাস্টিক গ্রেডিয়েন্ট থেকে পালানো। সিওএলটি (পিপি। 797-842) এ।

সম্পাদনা:

আমি ইয়ান লেকুনের ফেসবুকে এই মন্তব্যটি দেখেছি, যা এই প্রশ্নের উপর একটি নতুন দৃষ্টিভঙ্গি দেয় (দুঃখিত fb- এ কীভাবে লিঙ্ক করবেন জানি না।)

বড় মিনিবাসে প্রশিক্ষণ দেওয়া আপনার স্বাস্থ্যের পক্ষে খারাপ। আরও গুরুত্বপূর্ণ, এটি আপনার পরীক্ষার ত্রুটির জন্য খারাপ। বন্ধুরা 32 টির চেয়ে বড় মিনিব্যাচগুলি ব্যবহার করতে দেয় না Let's আসুন এটির মুখোমুখি হন: কেবলমাত্র লোকেরা 2012 সাল থেকে একের বেশি মনিব্যাচ আকারে স্যুইচ করেছে, কারণ জিপিইউ 32 বছরের চেয়ে কম ব্যাচের আকারের জন্য অদক্ষ। এটি একটি ভয়ানক কারণ। এর অর্থ কেবল আমাদের হার্ডওয়্যার চুষে নেওয়া।

তিনি এই কাগজটি উদ্ধৃত করেছেন যা কিছুদিন আগে (এপ্রিল 2018) সবেমাত্র আরএক্সভিতে পোস্ট করা হয়েছিল, যা পড়ার মতো,

ডমিনিক মাস্টার্স, কার্লো লুশি, ডিপ নিউরাল নেটওয়ার্কগুলির জন্য ছোট্ট ব্যাচের প্রশিক্ষণ পুনর্বিবেচনা : আরএক্সআইভি: 1804.07612v1

বিমূর্ত থেকে,

বৃহত মিনি-ব্যাচগুলির ব্যবহারের ফলে উপলব্ধ গণনামূলক সমান্তরালতা বৃদ্ধি পায়, তবে ছোট ব্যাচের প্রশিক্ষণে উন্নত সাধারণকরণের কার্য সম্পাদন দেখানো হয়েছে ...

সেরা পারফরম্যান্স অবিচ্ছিন্নভাবে মি-ব্যাচ আকারের জন্য মি = 2 এবং এম = 32 এর মধ্যে প্রাপ্ত হয়েছে, যা সাম্প্রতিক কাজের সাথে হাজারে মিনি-ব্যাচের আকারগুলির ব্যবহারের পক্ষে তুলনা করে।


2
মিনি-ব্যাচের গ্রেডিয়েন্ট বংশোদ্ভূত ব্যাচের গ্রেডিয়েন্ট বংশোদ্ভূত বদলের চেয়ে খারাপ স্থানীয় মিনিমা এড়ানো সম্ভাবনা বেশি কেন হওয়া উচিত? আপনার কি এই দাবিটি সমর্থন করার কিছু আছে?
মার্টিন থোমা

@ মার্টিনথোমা জেএমএলআর সম্পর্কিত একটি সাম্প্রতিক কাগজ [২] এর উপপাদ্য 6 দেখুন।
horaceT

2
এই কাগজটি আরএক্সআইভিতেও রয়েছে । এছাড়াও, আমি দেখতে পাচ্ছি না এটি কীভাবে আপনার দাবিটিকে সমর্থন করে। এমনকি তারা কখনও মিনি-ব্যাচের গ্রেডিয়েন্ট বংশোদ্ভূত হওয়ার কথা উল্লেখ করেনি। আমি বুঝতে পারি না যে উপপাদ্য (উদাহরণস্বরূপ "জি (এক্স)" কী? তারা কোথা থেকে এই স্বরলিপিটি চালু করেছিলেন? পরিসংখ্যান শ্রেণিতে, জি (এক্স) = ই (এক্স) ... তবে এটি এখানে খুব একটা বোঝায় না) । কি ? - এই উপপাদ্যের বক্তব্যটি মনে হয় যে কোনও খারাপ স্থানীয় মিনিমা নেই। তবে এসজিডি এবং ব্যাচের গ্রেডিয়েন্ট বংশোদ্ভূত পাশাপাশি মিনি-ব্যাচের গ্রেডিয়েন্ট বংশোদ্ভুতের ক্ষেত্রে এটি সত্য? ϕ(w,X)
মার্টিন থোমা

2
@ মার্টিনথোমা প্রদত্ত যে আমাদের দেওয়া ডেটাসেটের জন্য একটি গ্লোবাল মিনিমা রয়েছে, সেই গ্লোবাল মিনিমায়ার সঠিক পথটি প্রতিটি জিডি পদ্ধতির জন্য বিভিন্ন জিনিসের উপর নির্ভর করে। ব্যাচের জন্য, একমাত্র স্টোকাস্টিক দিকটি হল আরম্ভের ওজন। গ্রেডিয়েন্ট পাথ একই হবে যদি আপনি আবার একই প্রাথমিক ওজন এবং ডেটাসেট দিয়ে এনএনকে প্রশিক্ষণ দেন। মিনি-ব্যাচ এবং এসজিডির জন্য, পাথের প্রতিটি ধাপে প্রশিক্ষণের জন্য ডেটা পয়েন্টের স্টোকাস্টিক নমুনা থেকে প্রতিটি পদক্ষেপের মধ্যে কিছু স্টোকাস্টিক দিক থাকবে। এটি মিনি ব্যাচ এবং এসজিডি যদি তারা পথে থাকে তবে স্থানীয় অপটিমা থেকে বাঁচতে দেয়।
ওয়েসলি

8

মেমোরিটি আসলে এটি করার কারণ নয় , কারণ আপনি ডেটাসেটের মাধ্যমে পুনরাবৃত্তি করার সাথে সাথে কেবল আপনার গ্রেডিয়েন্টগুলি সংগ্রহ করতে পেরেছিলেন এবং সেগুলি শেষে প্রয়োগ করতে পারেন, তবে এখনও এসজিডিতে আপনি প্রতিটি পদক্ষেপে এগুলি প্রয়োগ করেন।

যে কারণে এসজিডি এত ব্যাপকভাবে ব্যবহৃত হয় তা হ'ল:

1) দক্ষতা। সাধারণত, বিশেষত প্রশিক্ষণের প্রথম দিকে, তথ্যের বিভিন্ন উপধারার জন্য প্যারামিটার-গ্রেডিয়েন্টগুলি একই দিকে নির্দেশ করে। সুতরাং ডেটাগুলির 1/100 তমকে মূল্যায়ন করা গ্রেডিয়েন্টগুলি সম্পূর্ণ ডেটাসেটের মতো একই সাধারণ দিকে প্রায় নির্দেশ করবে তবে কেবল 1/100 গণনা প্রয়োজন। যেহেতু একটি উচ্চ-অ-রৈখিক গভীর নেটওয়ার্কে রূপান্তরকরণের জন্য সাধারণত আপনার গ্রেডিয়েন্টগুলি যত ভালই হোক না কেন কয়েক হাজার বা লক্ষ লক্ষ পুনরাবৃত্তি প্রয়োজন, সুতরাং ভালগুলির উপর ভিত্তি করে কয়েকটি আপডেটের পরিবর্তে গ্রেডিয়েন্টের সস্তা অনুমানের ভিত্তিতে অনেকগুলি আপডেট করা বুদ্ধিমান হয়ে যায়।

2) অপ্টিমাইজেশন: গোলমাল আপডেটগুলি আপনাকে খারাপ স্থানীয় অপটিমা থেকে সরে যেতে অনুমতি দিতে পারে (যদিও আমার কাছে এমন কোনও উত্স নেই যা দেখায় যে এটি অনুশীলনে গুরুত্বপূর্ণ) in

3) সাধারণীকরণ। দেখে মনে হচ্ছে ( ঝ্যাং এট আল: থিওরি অফ ডিপ লার্নিং III: জেনারালাইজেশন প্রোপার্টি এসজিডি ) যে এসজিডি প্রকৃতপক্ষে ট্রেনিং সেটে "ফ্ল্যাট" মিনিমা খুঁজে বের করে সাধারণীকরণে সহায়তা করে, যা পরীক্ষার সেটটিতে মিনিমা হওয়ার সম্ভাবনাও বেশি। Intuitively, আমরা কেমন হিসাবে SGD মনে করতে পারেন ব্যাগিং - তথ্য অনেক minibatches উপর ভিত্তি করে আমাদের পরামিতি কম্পিউটিং মাধ্যমে আমরা নিয়ম নববলে বলীয়ান করা যে minibatches জুড়ে সাধারণের, এবং বিধি জারি করে যে না বাতিল ফলে করার overfitting আমাদেরকে কম প্রবণ উপার্জন প্রশিক্ষণ সেট.


3

আমি ভুল না হলে ব্যাচের আকারটি প্রশিক্ষণের পুনরাবৃত্তি চলাকালীন মডেলটির দ্বারা দেখা ট্রেনিংয়ের সংখ্যা

সঠিক (যদিও আমি এটি "ওজন আপডেটের পদক্ষেপ" বলব)

এবং প্রশিক্ষণের প্রতিটি উদাহরণ যখন মডেল দ্বারা দেখা হয়ে থাকে তখন যুগটি সম্পূর্ণ পালা হয়

ঠিক

যদি তা হয়, তবে আমি প্রশিক্ষণের উদাহরণগুলির প্রায় একটি তুচ্ছ সাবসেটের মাধ্যমে পুনরাবৃত্তি করার সুবিধাটি দেখতে পাচ্ছি না "সর্বাধিক ব্যাচ" প্রয়োগের বিপরীতে মডেলটিতে প্রতিটি ঘুরে পাওয়া যায় এমন সমস্ত প্রশিক্ষণের উদাহরণগুলি প্রকাশ করে (অবশ্যই ধরে নিই, যথেষ্ট স্মৃতি)। এই পদ্ধতির সুবিধা কী?

বেশ, বেশ। আপনার সাধারণত পর্যাপ্ত স্মৃতি থাকে না। বলি আমরা চিত্রের শ্রেণিবিন্যাসের বিষয়ে কথা বলছি। ইমেজনেট একটি বুনো জনপ্রিয় ডেটাসেট। কিছুক্ষণের জন্য, ভিজিজি -16 ডি সর্বাধিক জনপ্রিয় মডেলগুলির মধ্যে একটি ছিল। এটির জন্য 224x224 চিত্রের জন্য 15 245 800 ফ্লোট (বৈশিষ্ট্য মানচিত্রে) প্রয়োজন। এর অর্থ প্রতি চিত্র প্রায় 61MB। এটি প্রতিটি চিত্রের প্রশিক্ষণের সময় আপনার কতটা মেমরির প্রয়োজন তা কেবলমাত্র একটি মোটামুটি কম। ইমেজনেটে ​​বেশ কয়েক হাজার (আমার মনে হয় 1.2 মিলিয়ন?) চিত্র রয়েছে। আপনার যদি এমন অনেকগুলি প্রধান মেমরি থাকতে পারে তবে আপনার কাছে অবশ্যই এতটা জিপিইউ মেমরি নেই। আমি জিপিইউ প্রায় 21x পর্যন্ত জিনিসগুলিকে গতিতে দেখেছি। সুতরাং আপনি অবশ্যই জিপিইউ ব্যবহার করতে চান।

এছাড়াও: একটি মিনি ব্যাচের সময় অনেক কম। সুতরাং প্রশ্নটি হল: আপনি বরং জিপিইউ ছাড়াই প্রতি ঘন্টা জিপিইউতে মিনি-ব্যাচের সাথে এন আপডেট পদক্ষেপগুলি করতে পারবেন বা জিপিইউ ছাড়াই ব্যাচের সাথে মি আপডেটের পদক্ষেপগুলি যেখানে এন >> মি।


এটি আসলে সীমাবদ্ধ স্মৃতির বিষয় নয়। স্থির মডেল প্যারামিটারগুলি (একক দানবীন ব্যাচে গ্রেডিয়েন্টটি গণনার সমতুল্য) বেশ কয়েকটি ব্যাচে আপনার ডেটাसेटের উপর দিয়ে গ্রেডিয়েন্টটি গণনা করা সর্বদা সম্ভব। কার্যতঃ এসজিডি / এমবিজিডি-র stochasticity / গোলমাল দ্বারা সৃষ্ট জেনারালাইজেশন বৈশিষ্ট্য এবং আপনার ডেটাসেটের মাধ্যমে সংশ্লেষণে পৌঁছানোর জন্য খুব কম epochs প্রয়োজন যে সত্য সম্পর্কে আরও বেশি। একক যুগের মধ্যে মডেল প্যারামগুলি আপডেট করা আরও ভাল মধ্যবর্তী প্যারামগুলির দিকে পরিচালিত করে যা যুগের আরও গ্রেডিয়েন্ট গণনাগুলিকে আরও তথ্যবহুল করে তোলে।
ম্যাডিসন মে

1

অন্যান্য উত্তরগুলি বাদ দিয়ে আমি মনে করি এটি উল্লেখ করা মূল্যবান যে দুটি পরিমাণ রয়েছে যা স্বতন্ত্র তবে প্রায়শই মিলিত হয়:

  1. প্রতিটি পদক্ষেপে পরামিতিগুলির গ্রেডিয়েন্ট গণনা করতে ব্যবহৃত ইনপুটগুলির সংখ্যা।

অন্যরা যেমন উল্লেখ করেছে, একটি মিনিবাচের সাথে সম্মানের সাথে গ্রেডিয়েন্টটি সত্য গ্রেডিয়েন্টের একটি অনুমানের ima মিনিব্যাচটি যত বড় হবে তত অনুমানের পরিমাণ আরও ভাল।

  1. একটি অ্যারেতে সংগ্রহ করা ইনপুটগুলির সংখ্যা এবং "একই সাথে" গণনা করা হয়

এখানে বাণিজ্য বন্ধ কার্যকারিতা (মেমরি / চক্র) সম্পর্কে।

এই পরিমাণগুলি সাধারণত একই, অর্থাত্ মিনিবিচের আকার, তবে নীতিগতভাবে সেগুলি ডিকউপল করা যায়।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.