দ্রষ্টব্য: এই উত্তরে আমি প্রশিক্ষণের ক্ষতি হ্রাস করার বিষয়টি উল্লেখ করি এবং বৈধতা হ্রাসের মতো স্টপিং মানদণ্ডের বিষয়ে আমি আলোচনা করি না। থামার মানদণ্ডের পছন্দটি নীচে বর্ণিত প্রক্রিয়া / ধারণাগুলিকে প্রভাবিত করে না।
নিউরাল নেটওয়ার্কের প্রশিক্ষণের প্রক্রিয়া হ'ল লস ফাংশনের ন্যূনতম মান , যেখানে নিউরন এবং মধ্যে ম্যাট্রিক্স (বা বেশ কয়েকটি ম্যাট্রিক) প্রতিনিধিত্ব করে প্রশিক্ষণ ডেটাসেটকে উপস্থাপন করে। আমি একটি সাবস্ক্রিপ্ট ব্যবহার ইঙ্গিত রয়েছে যা আমাদের কম শুধুমাত্র ওজন বেশি ঘটে (যে, আমরা কি খুঁজছি যেমন যে কমিয়ে আনা হয়) যখন সংশোধন করা হয়েছে।এলএক্স( ডাব্লু)এক্স এক্স ℒ ডাব্লু ডাব্লু এক্স ℒ এক্সওয়াটএক্সXLWWLX
এখন, আমরা যদি ধরে নেই যে আমরা আছে উপাদান (যে আছে নেটওয়ার্কের মধ্যে ওজন), একটি মধ্যে একটি পৃষ্ঠ হয় -dimensional স্থান। একটি ভিজ্যুয়াল অ্যানালগ দেওয়ার জন্য, কল্পনা করুন যে আমাদের কেবল দুটি নিউরন ওজন রয়েছে ( )। তারপর একটি সহজ জ্যামিতিক ব্যাখ্যা আছে: এটা একটি 3-মাত্রিক স্থান একটি পৃষ্ঠ হয়। এটি এই সত্য থেকেই উদ্ভূত হয় যে ওজনের কোনও প্রদত্ত ম্যাট্রিকের জন্য , ক্ষতির ক্রিয়াটি মূল্যায়ন করা যেতে পারে এবং সেই মানটি পৃষ্ঠের উচ্চতায় পরিণত হয়।ডব্লু পি ℒPWPLপি = 2 ℒ ডাব্লু এক্সP+1P=2LWX
তবে অবিচ্ছিন্নতার সমস্যা রয়েছে; আমার বর্ণিত পৃষ্ঠটি অনেকগুলি স্থানীয় মিনিমা থাকবে এবং অতএব গ্রেডিয়েন্ট বংশদ্ভুত অ্যালগরিদমগুলি সেই মিনিমাতে "আটকে" যাওয়ার পক্ষে সংবেদনশীল তবে গভীর / নিম্ন / আরও ভাল সমাধান কাছাকাছি থাকতে পারে। সমস্ত ট্রেনিং পুনরাবৃত্তির উপরে যদি অপরিবর্তিত থাকে তবে এটি সম্ভবত ঘটবে , কারণ প্রদত্ত জন্য পৃষ্ঠটি স্থির করা হয়েছে ; এর বিভিন্ন বৈশিষ্ট্যগুলি বিভিন্ন মিনিমা সহ স্থিতিশীল।এক্সXX
এর সমাধান হ'ল মিনি ব্যাচের প্রশিক্ষণটি বদলে যাওয়া combined প্রদত্ত পুনরাবৃত্তির সময় সারিগুলিকে পরিবর্তিত করে কেবল সেগুলির একটি উপসেটে প্রশিক্ষণ দেওয়ার মাধ্যমে প্রতিটি পুনরাবৃত্তির সাথে পরিবর্তিত হয় এবং এটি সম্ভবত বেশ সম্ভব যে প্রশিক্ষণের পুনরাবৃত্তির পুরো ক্রম এবং দুটি যুগের পুনরাবৃত্তি ঠিক একই সঞ্চালিত হবে না । এর প্রভাবটি হ'ল সমাধানকারী স্থানীয় ন্যূনতম থেকে খুব সহজেই "বাউন্স" করতে পারেন। কল্পনা করুন যে সমাধানকারী পুনরাবৃত্তির এ স্থানীয় সর্বনিম্ন আটকে প্রশিক্ষণ মিনি- ব্যাচ সঙ্গে । এই স্থানীয় সাথে of ওজনের একটি নির্দিষ্ট মূল্যে মূল্যায়ন; আমরা এটিকেএক্স আমি এক্স আমি ℒ ℒ এক্স আমি ( ওয়াট আমি ) এক্স আমি + + 1 ℒ এক্স আমি + + 1 ( ওয়াট আমি ) ℒ এক্স আমি ( ওয়াট আমি ) ℒ এক্স আমি + + 1 ℒ এক্স আমি ℒ এক্স ওয়াট ওয়াটXXiXiLLXi(Wi)। পরবর্তী পুনরাবৃত্তিতে আমাদের ক্ষতির পৃষ্ঠের আকৃতিটি আসলে পরিবর্তিত হয় কারণ আমরা using ব্যবহার করছি , অর্থাৎ, from থেকে খুব আলাদা মান গ্রহণ করতে পারে এবং এটি সম্ভব যে এটি কোনও স্থানীয় সাথে মিলে না! আমরা এখন একটি গ্রেডিয়েন্ট আপডেট গণনা করতে পারি এবং প্রশিক্ষণ দিয়ে চালিয়ে যেতে পারি। স্পষ্ট হবে: আকৃতি হবে - সাধারণভাবে - যা থেকে আলাদা হতে। মনে রাখবেন যে, এখানে আমি ক্ষয় ফাংশন উল্লেখ করছি একটি প্রশিক্ষণ সেটে মূল্যায়ন ; এটি সমস্ত সম্ভাব্য মানের তুলনায় সংজ্ঞায়িত একটি সম্পূর্ণ পৃষ্ঠ surfaceXi+1LXi+1(Wi)LXi(Wi)LXi+1LXiLXW, নির্দিষ্ট মানের জন্য সেই ক্ষতির মূল্যায়ন (যা কেবলমাত্র একটি স্কেলার) । এছাড়াও নোট করুন যে যদি মিনি ব্যাচগুলি পরিবর্তন না করে ব্যবহার করা হয় তবে লোকসানের উপরিভাগের "বিবিধকরণ" এর একটি ডিগ্রি এখনও রয়েছে, তবে সলভার দ্বারা দেখা একটি সীমাবদ্ধ (এবং তুলনামূলকভাবে ছোট) সংখ্যার অনন্য ত্রুটি থাকবে (বিশেষত, এটি দেখতে পাবে) মিনি-ব্যাচগুলির একই সঠিক সেট - এবং সেইজন্য লোকসানের পৃষ্ঠগুলি - প্রতিটি যুগের সময়)।W
একটি জিনিস যা আমি ইচ্ছাকৃতভাবে এড়িয়েছি মিনি ব্যাচের আকারগুলির আলোচনা ছিল, কারণ এটি সম্পর্কে মিলিয়ন মতামত রয়েছে এবং এর উল্লেখযোগ্য ব্যবহারিক প্রভাব রয়েছে (বৃহত্তর ব্যাচগুলির সাথে বৃহত্তর সমান্তরালতা অর্জন করা যেতে পারে)। তবে আমি বিশ্বাস করি যে নিম্নলিখিতগুলি উল্লেখযোগ্য। যেহেতু প্রতিটি সারির মান গণনা করে মূল্যায়ন করা হয় (এবং বা গড় গ্রহণ; অর্থাত্ একটি যাত্রী অপারেটর) প্রদত্ত ওজনের ম্যাট্রিকেস সেট জন্য এর সারিগুলির বিন্যাস কার্যকর হয় না যখন পূর্ণ- ব্যবহার করার সময় ব্যাচের গ্রেডিয়েন্ট বংশোদ্ভূত (এটি, যখন প্রতিটি ব্যাচ পুরো , এবং পুনরাবৃত্তি এবং যুগগুলি একই জিনিস হয়)। এক্স ডাব্লু এক্স এক্সLXWX X