ব্যাচ গ্রেডিয়েন্ট বংশোদ্ভূত বনাম স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত

101

ধরা যাক জন্য আমাদের কিছু প্রশিক্ষণ সেট $(x_{(i)}, y_{(i)})$ । এছাড়াও ধরুন যে আমরা প্রশিক্ষণের সেটটিতে কিছু ধরণের তদারকি করা শেখার অ্যালগরিদম চালাই। অনুমানগুলি হিসাবে উপস্থাপিত হয় $i = 1, \dots, m$ $h_{\theta}(x_{(i)}) = \theta_0+\theta_{1}x_{(i)1} + \cdots +\theta_{n}x_{(i)n}$ । আমরা পরামিতি বের করতে হবে $\mathbf{\theta}$ যে মধ্যে "দূরত্ব" কমান এবং । যাক $y_{(i)}$ $h_{\theta}(x_{(i)})$

জে (θ) = \frac{1}{2} Σ_{আমি = 1}^{মি} (Y_{(আমি)} - জ_{θ} ({এক্স}_{(আমি)})^{2}

$J(\theta) = \frac{1}{2} \sum_{i=1}^{m} (y_{(i)}-h_{\theta}(x_{(i)})^{2}$

তারপরে আমরা খুঁজে পেতে চাই যা হ্রাস করে । গ্রেডিয়েন্ট বংশোদ্ভূত আমরা প্রতিটি পরামিতি আরম্ভ করি এবং নিম্নলিখিত আপডেটটি সম্পাদন করি: $\theta$ $J(\theta)$

θ_{ঞ} : = θ_{ঞ} - α \frac{\partial}{\partial θ_{ঞ}} জে (θ)

$\theta_j := \theta_j-\alpha \frac{\partial}{\partial \theta_{j}} J(\theta)$

ব্যাচ গ্রেডিয়েন্ট বংশোদ্ভূত এবং স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত মধ্যে মূল পার্থক্য কি?

উভয়ই উপরের আপডেট বিধিটি ব্যবহার করে। তবে একজন কি অপরের চেয়ে ভাল?

optimization gradient-descent sgd

— user20616
সূত্র

121

ব্যাচ বা স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত হওয়ার প্রয়োগটি সত্যই প্রত্যাশিত ত্রুটির উপর নির্ভর করে।

ব্যাচ গ্রেডিয়েন্ট বংশোদ্ভূত পুরো ডেটাसेट ব্যবহার করে গ্রেডিয়েন্ট গণনা করে। এটি উত্তল, বা তুলনামূলকভাবে মসৃণ ত্রুটি বহুগুণে দুর্দান্ত। এক্ষেত্রে আমরা স্থানীয় বা গ্লোবাল যে কোনও জায়গায় সরাসরি সর্বোত্তম সমাধানের দিকে এগিয়ে যাই। অতিরিক্তভাবে, একটি ঘোষিত শিক্ষার হারের ভিত্তিতে ব্যাচের গ্রেডিয়েন্ট বংশোদ্ভূত অবশেষে এটি আকর্ষণীয় অববাহিকায় ন্যূনতম অবস্থিত খুঁজে পেতে পারে।

স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত (এসজিডি) একক নমুনা ব্যবহার করে গ্রেডিয়েন্টটি গণনা করে। এসজিডি-র বেশিরভাগ অ্যাপ্লিকেশনগুলি বেশ কয়েকটি নমুনার একটি মিনিব্যাচ ব্যবহার করে, যে কারণে কিছুটা পরে ব্যাখ্যা করা হবে। এসজিডি বেশিরভাগ স্থানীয় ম্যাক্সিমা / মিনিমা রয়েছে এমন ত্রুটি ম্যানিফোল্ডগুলির জন্য (ভাল নয়, আমি মনে করি, তবে ব্যাচের গ্রেডিয়েন্ট বংশোদ্ভূত থেকে ভাল) ভাল কাজ করে। এই ক্ষেত্রে, নমুনার হ্রাস সংখ্যা ব্যবহার করে গণনা করা কিছুটা কোলাহলীয় গ্রেডিয়েন্ট মডেলটিকে স্থানীয় মিনিমা থেকে বের করে এমন একটি অঞ্চলে ঝাঁকুনি দেয় যে আশাবাদী আরও অনুকূল op একক নমুনা সত্যিই গোলমাল, অন্যদিকে মিনিব্যাচগুলি কিছুটা গোলমাল গড়ায় to সুতরাং, মিনিব্যাচগুলি ব্যবহার করার সময় ঝাঁকুনির পরিমাণ হ্রাস পায়। কিছুটা দরিদ্র স্থানীয় মিনিমা এড়াতে যখন মিনিব্যাচের আকার যথেষ্ট ছোট হয় তখন একটি ভাল ভারসাম্য রীতিমতো আঘাত হানে, তবে এটি যথেষ্ট পরিমাণে বড় হয় না ' বিশ্বব্যাপী মিনিমা বা ভাল-সম্পাদনকারী স্থানীয় মিনিমা এড়ান। (ঘটনাচক্রে, এটি ধরে নিয়েছে যে সেরা মিনিমার আকর্ষণ বৃহত্তর এবং গভীর অববাহিকা রয়েছে এবং তাই এতে পড়তে সহজ হয়))

এসজিডির একটি সুবিধা হ'ল এটি গণনার দিক থেকে সম্পূর্ণ দ্রুত। বড় ডেটাসেটগুলি প্রায়শই র‍্যামে রাখা যায় না, যা ভেক্টরাইজেশনকে অনেক কম দক্ষ করে তোলে। বরং প্রতিটি নমুনা বা ব্যাচের নমুনা অবশ্যই লোড করতে হবে, তার সাথে কাজ করতে হবে, ফলাফল সংরক্ষণ করা হবে ইত্যাদি on অন্যদিকে, মিনিবাচ এসজিডি সাধারণত ইচ্ছাকৃতভাবে ছোট করে তৈরি করা হয় কম্পিউটারের ট্র্যাকটেবল হওয়ার জন্য।

সাধারণত, এসজিডি এর আরও অনেক পুনরাবৃত্তি সম্পাদন করে প্রচলিত ব্যাচের গ্রেডিয়েন্ট বংশোদ্ভূত বংশধরদের চেয়ে আরও অনেক ধাপ তৈরি করে এই গণ্য সুবিধাটি লাভ করা হয়। এটি সাধারণত এমন একটি মডেলটির ফলাফল দেয় যা খুব কাছাকাছি থাকে যা ব্যাচের গ্রেডিয়েন্ট বংশোদ্ভূত বা আরও ভাল।

এসজিডি কীভাবে কাজ করে তা ভাবতে আমার মনে হয় যে আমার একটি পয়েন্ট আছে যা আমার ইনপুট বিতরণকে উপস্থাপন করে। আমার মডেলটি ইনপুট বিতরণটি শিখার চেষ্টা করছে। ইনপুট বিতরণকে ঘিরে একটি ছায়াযুক্ত অঞ্চল যা আমি নমুনা করতে পারলাম এমন সম্ভাব্য মিনিব্যাচের সমস্তগুলির ইনপুট বিতরণকে উপস্থাপন করে। এটি সাধারণত ন্যায্য অনুমান যে মিনিপ্যাচ ইনপুট বিতরণগুলি সত্যিকারের ইনপুট বিতরণের নিকটেই থাকে। ব্যাচের গ্রেডিয়েন্ট বংশোদ্ভূত, সমস্ত পদক্ষেপে, সত্যিকারের ইনপুট বিতরণে পৌঁছানোর জন্য সবচেয়ে দ্রুততম রুট নেয়। অন্যদিকে, এসজিডি ছায়াযুক্ত অঞ্চলের মধ্যে একটি এলোমেলো পয়েন্ট চয়ন করে এবং এই বিন্দুটির দিকে সবচেয়ে খাড়া পথ নেয়। যদিও প্রতিটি পুনরাবৃত্তিতে এটি একটি নতুন পয়েন্টটি বেছে নেয়। এই সমস্ত পদক্ষেপের গড় সাধারণত প্রায় ভালভাবে সত্য ইনপুট বিতরণকে অনুমান করবে।

— Jason_L_Bens
সূত্র

13

অনুশীলনে, কেউ ব্যাচ গ্রেডিয়েন্ট বংশদ্ভুত ব্যবহার করে না। এটি লাভের পক্ষে খুব বেশি না পাওয়ার জন্য কেবল কম্পিউটারের ব্যয়বহুল। (লাভটি হ'ল আপনি আসলে "সত্য" গ্রেডিয়েন্টটি নামিয়ে নিচ্ছেন)) আপনার যখন একটি অত্যন্ত উত্তেজনাপূর্ণ ক্ষতির ফাংশন থাকে তখন আপনাকে বেশিরভাগ সময় সঠিক দিকের দিকে যেতে হবে এবং অবশেষে আপনি কোনও স্থানীয় ন্যূনতমে রূপান্তরিত করতে পারেন। এভাবে, মিনিবাসে এসজিডি

— সাবালবা

@ জেসন_এল_ব্যানসের কি আপনার কোনও রেফারেন্স (কাগজপত্র বা অনলাইন পাঠ্য) রয়েছে যেখানে আমি এই অ্যালগরিদমগুলি সম্পর্কে আরও পড়তে পারি?

— ব্যবহারকারী110320

1

@ ব্যবহারকারী110320 আমার মাথার উপরের অংশটি বন্ধ নয়, না, যদিও তারা খুব সাধারণ অ্যালগরিদম এবং তাই কিছুটা অনুসন্ধানের মাধ্যমে এই বিষয়টিতে এক টন সংস্থান থাকতে হবে। আপনি যদি কোনও সাধারণ পদ্ধতির সন্ধান করেন তবে আমি এআইয়ের জন্য যোশুয়া বেনজিওর লার্নিং ডিপ আর্কিটেকচারের কয়েকটি পড়ার পরামর্শ দেব। আমি এখানেই শুরু করেছি।

— জেসন_এল_বেন্স 10:58

6

যেমন অন্যান্য উত্তর থেকে বোঝা যায়, এসজিডি ব্যবহারের মূল কারণ হ'ল গ্রেডিয়েন্টের গণনা ব্যয় হ্রাস করা যখন এখনও বেশিরভাগ মিনি ব্যাচ বা নমুনাগুলির উপরে গড় হয় যখন গ্রেডিয়েন্ট দিকটি বজায় রাখে - এটি অবশ্যই আপনাকে স্থানীয় মিনিমাতে আনতে সহায়তা করে।

মিনিবাচ কেন কাজ করে ।

$p_{data}$ $\hat{p}_{data}$

ছ = ই_{{পি}_{ঘ একটি টি একটি}} (\frac{\partial জে (θ)}{\partial θ})

$g = E_{p_{data}}({\partial J(\theta)\over \partial \theta})$

\frac{এস ই (\hat{ছ} (এন))}{এস ই (\hat{ছ} (মি))} = \sqrt{\frac{মি}{এন}}

${SE({\hat{g}(n)}) \over SE({\hat{g}(m)})} = { \sqrt {m \over n}}$

m

$m$

ই_{{\hat{পি}}_{ঘ একটি টি একটি}} (\hat{ছ} (মি)) = ই_{{\hat{পি}}_{ঘ একটি টি একটি}} (\frac{\partial জে (θ)}{\partial θ})

$E_{\hat{p}_{data}}(\hat{g}(m)) = E_{\hat{p}_{data}}({\partial J(\theta)\over \partial \theta})$

m

$m$

মিনিব্যাচ কেন আরও ভাল কাজ করতে পারে ।

প্রথমত, ছোট ব্যাচের আকারের সাথে সংখ্যার হ্রাস হ্রাসের কারণে মিনিব্যাচ প্রযুক্তিগতভাবে অযোগ্য থেকে কিছু শিক্ষার সমস্যাগুলি সমাধান করতে সক্ষম করে।

দ্বিতীয়ত, হ্রাস ব্যাচের আকারের অগত্যা হ্রাস গ্রেডিয়েন্ট যথার্থতা বোঝায় না। প্রশিক্ষণের নমুনাগুলিতে অনেকেরই প্রচুর শোরগোল, বহিরাগত বা বায়াস রয়েছে। একটি এলোমেলোভাবে নমুনাযুক্ত মিনিবাচ আসল ডেটা তৈরির বিতরণকে মূল পূর্ণ ব্যাচের চেয়ে ভাল (বা আরও খারাপ নয়) প্রতিফলিত করতে পারে। যদি মিনিব্যাচ গ্রেডিয়েন্ট আপডেটগুলির কিছু পুনরাবৃত্তি আপনাকে আরও ভাল অনুমান দেয় তবে সামগ্রিকভাবে একটি যুগের গড় ফলাফল পূর্ণ ব্যাচ থেকে গ্রেডিয়েন্টের চেয়ে ভাল হতে পারে।

তৃতীয়ত, মিনিব্যাচ কেবল অপ্রীতিকর ডেটা নমুনাগুলি মোকাবেলা করতে সহায়তা করে না, পাশাপাশি অনেক স্থানীয় মিনিমা রয়েছে এমন অপ্রীতিকর ব্যয় ক্রিয়াকলাপেও সহায়তা করে। জেসন_এল_বেন্স যেমন উল্লেখ করেছেন, কখনও কখনও ত্রুটিটি বহুগুণে নিয়মিত গ্রেডিয়েন্টকে স্থানীয় মিনিমাতে আটকাতে সহজ হতে পারে, তবে মিনিব্যাচের সাথে গণনা করা অস্থায়ীভাবে এলোমেলো গ্রেডিয়েন্টকে ফাঁদে ফেলতে আরও বেশি অসুবিধা হয়।

অবশেষে, গ্রেডিয়েন্ট বংশোদ্ভূত সাথে, আপনি এক ধাপে বিশ্ব মিনিমে পৌঁছে যাচ্ছেন না, তবে বহুগুণে পুনরাবৃত্তি করছেন। গ্রেডিয়েন্ট মূলত আপনাকে পুনরাবৃত্তি করার দিকনির্দেশ দেয়। মিনিব্যাচ সহ, আপনি আরও দ্রুত পুনরাবৃত্তি করতে পারেন। অনেক ক্ষেত্রে, আরও পুনরাবৃত্তি, আপনি আরও ভাল পয়েন্টে পৌঁছাতে পারবেন। আপনি বিশ্বব্যাপী বা স্থানীয়ভাবে পয়েন্টটি সর্বোত্তম সর্বোত্তম আবহাওয়াতে সত্যই যত্ন নেন না। আপনি কেবল একটি যুক্তিসঙ্গত মডেলটিতে পৌঁছাতে চান যা আপনাকে গ্রহণযোগ্য সাধারণীকরণের ত্রুটি করে। মিনিব্যাচ এটি আরও সহজ করে তোলে।

আপনি ইয়ান গুডফেলো, "এট আল" র "ডিপ লার্নিং" বইটি পেতে পারেন, যদি আপনি এটিকে মনোযোগ সহকারে পড়েন তবে এই বিষয়ে বেশ ভাল আলোচনা হয়েছে।

— জিয়াও-ফেং লি
সূত্র

উত্তল অপ্টিমাইজেশান সমস্যার জন্য, আপনি যা বলেছেন তা ভাল। তবে নন-উত্তল ফাংশনগুলিতে গ্রেডিয়েন্ট পদ্ধতি ব্যবহার করতে আপনি খুব জটিল কারণটি হারিয়েছেন যে ব্যাচ জিডির চেয়ে এসজিডি ভাল better আমার প্রতিক্রিয়াটি দেখুন ডেটাসায়েন্স.স্ট্যাকেক্সচেঞ্জ

— প্রশ্নগুলি /

@ ঘোড়াটি আপনার মন্তব্যের জন্য ধন্যবাদ। যেহেতু আপনি উল্লিখিত পয়েন্টটি উপরে জেসন_এল_বেন্স বিবরণ দিয়ে বর্ণনা করেছেন, তাই আমি যথাযথ শ্রদ্ধার সাথে তার উত্তরটি শেষের তৃতীয় অনুচ্ছেদে উল্লেখ করে পুনরাবৃত্তি করতে বিরক্ত করিনি। গ্রেডেন্ট বংশদ্ভুত অপ্টিমাইজেশান সমস্যার জন্য, অ-উত্তলটি স্যাডল পয়েন্ট সহ স্থানীয় মিনিমা দ্বারা প্রতিফলিত হয় (শেষ তৃতীয় অনুচ্ছেদ দেখুন); এবং বর্ণনার স্বার্থে, আমার উত্তর এসজিডিটিকে মিনিবাচ হিসাবে বর্ণনা করে তবে 1 ব্যাচের আকারের সাথে (তৃতীয় অনুচ্ছেদ দেখুন)।

— জিয়াও-ফেং লি

3

$2^{10-1} = 512$

— সোভেন আহলিন্দার
সূত্র