স্টচাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত জন্য ব্যাচের আকার কত বড় হওয়া উচিত?


49

উত্তর:


72

আপনি যে "নমুনা আকার" এর কথা বলছেন তা ব্যাচের আকার , হিসাবে উল্লেখ করা হয় । আপনি যখন মিনি-ব্যাচের স্টোকাস্টিক গ্রেডিয়েন্ট ডিসেন্ট (এসজিডি) দিয়ে নিউরাল নেটওয়ার্কটি প্রশিক্ষণ করেন এবং ডেটা নির্ভরশীল হন তখন ব্যাচ সাইজের প্যারামিটারটি হাইপার-প্যারামিটারগুলির মধ্যে একটি tun হাইপার-প্যারামিটার অনুসন্ধানের সর্বাধিক প্রাথমিক পদ্ধতিটি শিখার হার এবং ব্যাচের আকারের উপরে একটি গ্রিড অনুসন্ধান করা যাতে একটি জুড়ি তৈরি হয় যা নেটওয়ার্ককে রূপান্তর করে।B

ব্যাচের আকারটি কী হওয়া উচিত তা বোঝার জন্য, ব্যাচের গ্রেডিয়েন্ট বংশোদ্ভূত, অনলাইন এসজিডি এবং মিনি-ব্যাচের এসজিডির মধ্যে সম্পর্কটি গুরুত্বপূর্ণ। মিনি ব্যাচের এসজিডি-তে ওজন আপডেটের ধাপের জন্য সাধারণ সূত্র এখানে দেওয়া হয়েছে, যা তিনটি ধরণেরই সাধারণীকরণ। [ ]

θt+1θtϵ(t)1Bb=0B1L(θ,mb)θ
  1. ব্যাচের গ্রেডিয়েন্ট বংশোদ্ভূত,B=|x|
  2. অনলাইন স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত:B=1
  3. মিনি-ব্যাচের স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত: তবে।বি < | এক্স |B>1B<|x|

মনে রাখবেন যে 1 এর সাথে ক্ষতির ফাংশন আর এলোমেলো পরিবর্তনশীল নয় এবং স্টোকাস্টিকের আনুমানিক নয়।

এসজিডি স্বাভাবিক "ব্যাচ" গ্রেডিয়েন্ট বংশোদ্ভুতের চেয়ে দ্রুত রূপান্তর করে কারণ এটি প্রশিক্ষণের সেটটির এলোমেলোভাবে নির্বাচিত সাবসেটটি দেখার পরে ওজনগুলি আপডেট করে। যাক আমাদের ট্রেনিং সেট হতে হবে এবং দিন । ব্যাচের আকার কেবলমাত্র :।মি x বি এম বি = | মি |xmxBmB=|m|

ব্যাচের গ্রেডিয়েন্ট বংশোদ্ভূত ওজন আপডেট করে পুরো ডেটাसेट গ্রেডিয়েন্ট ব্যবহার করে ; অন্যদিকে এসজিডি একটি মিনি-ব্যাচের জন্য গড় গ্রেডিয়েন্ট ব্যবহার করে ওজন আপডেট করে । (অঙ্কের বিপরীতে গড় ব্যবহার অ্যালগরিদমকে খুব বড় পদক্ষেপ নিতে বাধা দেয় যা ডেটাসেট খুব বড় হলে অন্যথায়, আপনাকে ডেটাসেটের আকারের উপর ভিত্তি করে আপনার শিক্ষার হার সামঞ্জস্য করতে হবে)) এর প্রত্যাশিত মান এসজিডিতে ব্যবহৃত গ্রেডিয়েন্টের স্টোকাস্টিক আনুমানিকতা ব্যাচ গ্রেডিয়েন্ট বংশোদ্ভূত ব্যবস্থায় ব্যবহৃত ডিস্ট্রিমেন্টিক গ্রেডিয়েন্টের সমান। ।θxmE[LSGD(θ,m)]=L(θ,x)

প্রতিবার যখন আমরা একটি নমুনা নিই এবং আমাদের ওজন আপডেট করি তখন একে মিনি-ব্যাচ বলা হয় । প্রতিবার আমরা যখন পুরো ডেটাসেটের মধ্য দিয়ে চলি তখন একে মহাকাব্য বলা হয় ।

ধরা যাক যে আমাদের কিছু ডেটা ভেক্টর রয়েছে , একটি প্রাথমিক ওজন ভেক্টর যা আমাদের নিউরাল নেটওয়ার্ককে প্যারামিটারাইজ করে, , এবং একটি ক্ষয় ফাংশন যে আমরা হ্রাস করার চেষ্টা করছি । আমাদের কাছে যদি প্রশিক্ষণের উদাহরণ এবং একটি ব্যাচ আকার থাকে , তবে আমরা সেই প্রশিক্ষণ উদাহরণগুলি সি মিনি-ব্যাচে বিভক্ত করতে পারি:x:RDθ0:RSL(θ,x):RSRDRSTB

C=T/B

সরলতার জন্য আমরা ধরে নিতে পারি যে টি বি দ্বারা সমানভাবে বিভাজ্য, যদিও এটি যখন হয় না, যেমনটি প্রায়শই হয় না, তার আকারের ক্রিয়া হিসাবে প্রতিটি মিনি-ব্যাচের জন্য যথাযথ ওজন নির্ধারণ করা উচিত।

ইউপস সহ এসজিডির একটি পুনরাবৃত্ত অ্যালগরিদম নীচে দেওয়া হয়েছে:M

t0while t<Mθt+1θtϵ(t)1Bb=0B1L(θ,mb)θtt+1

দ্রষ্টব্য: বাস্তব জীবনে আমরা মেমরি থেকে এই প্রশিক্ষণের উদাহরণের ডেটা পড়ছি এবং এবং আপনার কম্পিউটার দ্বারা করা ক্যাশে প্রাক-আনয়ন এবং অন্যান্য মেমরি ট্রিকগুলির কারণে, মেমরির অ্যাক্সেসগুলি একত্রিত হলে আপনার অ্যালগরিদম দ্রুত চলবে , যখন আপনি মেমরিটি পড়েন ক্রম এবং এলোমেলোভাবে কাছাকাছি না। সুতরাং, বেশিরভাগ এসজিডি বাস্তবায়ন ডেটাসেটটি বদল করে এবং তারপরে উদাহরণগুলি মেমোরিতে লোড করা হয় যাতে সেগুলি পড়বে।

ভ্যানিলার জন্য প্রধান প্যারামিটারগুলি (কোনও গতিবেগ নেই) উপরে বর্ণিত এসজিডি হ'ল:

  1. শিক্ষার হার:ϵ

আমি অ্যাপসিলনকে একটি যুগ হিসাবে একটি শিক্ষার হার পর্যন্ত ফাংশন হিসাবে ভাবতে চাই। এই ফাংশনটিকে শিখার হারের শিডিয়ুল বলা হয়

ϵ(t):NR

আপনি যদি শিক্ষার হার স্থির রাখতে চান তবে কেবল একটি ধ্রুবক ফাংশন হিসাবে এপসিলনকে সংজ্ঞায়িত করুন।

  1. ব্যাচ আকার

ব্যাচের আকার নির্ধারণ করে যে ওজন আপডেট করার আগে আপনি কতটি উদাহরণ দেখুন। এটি যত কম হবে, প্রশিক্ষণের সংকেত যতই উচ্চতর হবে, তত বেশি হবে, প্রতিটি পদক্ষেপের জন্য গ্রেডিয়েন্টটি গণনা করতে আরও বেশি সময় লাগবে।

উদ্ধৃতি এবং আরও পড়া:

  1. গ্রেডিয়েন্ট বেসড লার্নিংয়ের ভূমিকা
  2. গভীর স্থাপত্যগুলির গ্রেডিয়েন্ট-ভিত্তিক প্রশিক্ষণের জন্য ব্যবহারিক প্রস্তাবনা recommendations
  3. স্টোকাস্টিক অপটিমাইজেশনের জন্য দক্ষ মিনি-ব্যাচের প্রশিক্ষণ

1
For simplicity we can assume that D is evenly divisible by B। আপনি কি এটি বলতে যে না টি সমানভাবে B দ্বারা বিভাজ্য হওয়া উচিত?
এন্টোইন

4
এবং আসলে ওপি-র প্রশ্নের উত্তর দিতে, আপনি যুক্ত করতে পারেন B is typically chosen between 1 and a few hundreds, e.g. B = 32 is a good default value, with values above 10 taking advantage of the speed-up of matrix-matrix products over matrix-vector products.(বেনজিওর 2012 সালের কাগজ থেকে)
এন্টোইন

@ সাব্বলবা ভাল উত্তর। তবে এটি কি নয় যে "এম ইপাক্স সহ এসজিডির জন্য একটি পুনরাবৃত্ত অ্যালগরিদম নীচে দেওয়া হয়েছে" আমরা প্রতিটি মিনি-ব্যাচের উপর দিয়ে চলার পরে ওজন আপডেট করব। অন্য কথায়, পর্বের উপরে লুপের ভিতরে আর কোনও লুপ (সি মিনি ব্যাচগুলির ওপরে) থাকা উচিত নয়, যখন <ম
কৌশিক আচার্য

2
পরিসংখ্যানগুলিতে, একটি নমুনা একাধিক পর্যবেক্ষণ নিয়ে গঠিত। সুতরাং, নমুনা আকারের পরিসংখ্যানবিদরা সঠিকভাবে ব্যাখ্যা করেছেন। কম্পিউটার বিজ্ঞানে (বিশেষত, মেশিন লার্নিংয়ে) একটি নমুনা হল একক পর্যবেক্ষণ এবং একটি ব্যাচ নমুনার সংগ্রহ। এটি কিছুটা বিভ্রান্ত হতে পারে। পরিসংখ্যানবিদদের কাছে একটি নমুনা তথ্য বিজ্ঞানীদের কাছে একটি ব্যাচ;) সূত্র: en.wikedia.org/wiki/Sample_size_determission
ওলেগ মেল্নিকভ

"ব্যাচ সাইজের প্যারামিটারটি হাইপার-প্যারামিটারগুলির মধ্যে একটি যা আপনি টিউন করবেন" " একাধিক টিউনিং মডেল চালানো কি এস জি ডি এর পুরো উদ্দেশ্যকে প্রথম স্থানে পরাজিত করবে না? আমি মনে করি ওপি নমুনা আকারের জন্য থাম্বের নিয়ম চাইছে। যদি আপনার ডেটাতে রেকর্ডস এবং ভেরিয়েবল থাকে তবে পর্যাপ্ত পরিমাণে গ্রেডিয়েন্ট গণনা করার জন্য উপযুক্ত নমুনার আকারটি কী? মিnm
রবার্টএফ
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.