গ্রেডিয়েন্ট বংশোদ্ভূত অক্ষম এই দাবির কোনও প্রসঙ্গ সরবরাহ করলে এটি সহায়তা করবে। অপেক্ষাকৃত তুলনামূলক কী?
আমি অনুমান করি যে এখানে অনুপস্থিত প্রসঙ্গটি মেশিন লার্নিংয়ের স্টোকাস্টিক বা ব্যাচের গ্রেডিয়েন্ট বংশোদ্ভূত সাথে তুলনা করে। এই প্রসঙ্গে প্রশ্নের উত্তর কীভাবে দেওয়া যায় তা এখানে। আপনি মডেলের প্যারামিটারগুলি, এমনকি হাইপারপ্যারামিটারগুলিও অপ্টিমাইজ করছেন। সুতরাং, আপনার ব্যয় ফাংশন রয়েছে , যেখানে - আপনার ডেটা, এবং - পরামিতিগুলির ভেক্টর এবং - ক্ষতি ফাংশন। এই হ্রাস করতে আপনি প্যারামিটারগুলির উপরে :
এক্স আমি Θ এল ( ) θ ঞ ∂∑ni=1L(xi|Θ)xiΘL() θj
∂∂θj∑i=1nL(Θ|xi)
সুতরাং, আপনি দেখতে যে তোমাদের উপর সমষ্টি পেতে প্রয়োজন সব তথ্য । এটি দুর্ভাগ্যজনক, কারণ এর অর্থ হ'ল আপনি আপনার গ্রেডিয়েন্ট বংশোদ্ভূত প্রতিটি পদক্ষেপের জন্য ডেটা লুপ করে চলেছেন। ব্যাচ এবং স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূতভাবে এভাবে উঠে আসে: আমরা যদি ডেটা সেট থেকে নমুনা নিই এবং পুরো সেটটি না করে কোনও নমুনায় গ্রেডিয়েন্ট গণনা করি তবে কী হবে?
এখানে, হল নমুনার এর পর্যবেক্ষণের সংখ্যা । সুতরাং, যদি আপনার নমুনা মোট সেটের 1/100 তম হয়, আপনি আপনার গণনাগুলিকে 100 গুণ বাড়িয়ে দিন! স্পষ্টতই, এটি শব্দের সাথে পরিচয় করিয়ে দেয় যা শিক্ষাকে দীর্ঘায়িত করে তবে শব্দটি হ্রাস হয়xi=1,…,n
∂∂θj∑k=1nsL(Θ|xk)
nssn−−√যখন গণনার পরিমাণ এ বৃদ্ধি পায় , তাই এই কৌশলটি কাজ করতে পারে।
n
বিকল্প হিসাবে, পুরো যোগফল until যোগ_ গণনা না করা পর্যন্ত অপেক্ষা করা, আপনি এটি ব্যাচগুলিতে বিভক্ত করতে পারেন এবং প্রতিটি ব্যাচের জন্য একটি পদক্ষেপ করতে পারেন । পুরো ডেটা সেটের সমষ্টি নির্ধারিত হওয়ার পরে আপনি এম পদক্ষেপগুলি করতে পারতেন। এগুলি শোরগোলের পদক্ষেপগুলি হতে পারে তবে সময়ের সাথে সাথে শব্দগুলি বাতিল হয়ে যায়।∑ni=1∑Ms=1∑nsis=1