উপর ভিত্তি করে আমরা যখন একটা প্রশ্ন DataScience পোস্ট একটি প্রশ্ন CrossValidated পোস্ট অনুরূপ কী করা উচিত? , ক্রসভ্যালিডেটেড ( https://stats.stackexchange.com/a/311318/89653 ) এ জিজ্ঞাসা করা একই প্রশ্নের আমার উত্তরটি পুনরায় পোস্ট করছি ।
দ্রষ্টব্য: এই উত্তরে আমি প্রশিক্ষণের ক্ষতি হ্রাস করার বিষয়টি উল্লেখ করি এবং বৈধতা হ্রাসের মতো স্টপিং মানদণ্ডের বিষয়ে আমি আলোচনা করি না। থামার মানদণ্ডের পছন্দটি নীচে বর্ণিত প্রক্রিয়া / ধারণাগুলিকে প্রভাবিত করে না।
নিউরাল নেটওয়ার্কের প্রশিক্ষণের প্রক্রিয়া হ'ল লস ফাংশনের ন্যূনতম মান , যেখানে নিউরন এবং মধ্যে ম্যাট্রিক্স (বা বেশ কয়েকটি ম্যাট্রিক) প্রতিনিধিত্ব করে ট্রেনিং ডেটাসেটকে উপস্থাপন করে। আমি একটি সাবস্ক্রিপ্ট ব্যবহার ইঙ্গিত রয়েছে যা আমাদের কম শুধুমাত্র ওজন বেশি ঘটে (যে, আমরা কি খুঁজছি যেমন যে কমিয়ে আনা হয়) যখন সংশোধন করা হয়েছে।ডাব্লুএক্সএক্স ℒ ডাব্লুডাব্লুএক্স ℒ এক্সএলএক্স( ডাব্লু)ওয়াটএক্সএক্সএলওয়াটওয়াটএলএক্স
এখন, আমরা যদি ধরে নেই যে আমরা আছে উপাদান (যে আছে নেটওয়ার্কের মধ্যে ওজন), একটি মধ্যে একটি পৃষ্ঠ হয় -dimensional স্থান। একটি ভিজ্যুয়াল অ্যানালগ দেওয়ার জন্য, কল্পনা করুন যে আমাদের কেবল দুটি নিউরন ওজন রয়েছে ( )। তারপর একটি সহজ জ্যামিতিক ব্যাখ্যা আছে: এটা একটি 3-মাত্রিক স্থান একটি পৃষ্ঠ হয়। এটি এই সত্য থেকেই উদ্ভূত হয় যে ওয়েটের যে কোনও দেওয়া ম্যাট্রিকের জন্য , ক্ষতির ক্রিয়াটি মূল্যায়ন করা যেতে পারে এবং সেই মানটি পৃষ্ঠের উচ্চতাতে পরিণত হয়।ডব্লু পি ℒ পি + 1 পি = 2 ℒ ডাব্লু এক্সপিওয়াটপিএলপি+ 1পি= 2এলওয়াটএক্স
তবে অবিচ্ছিন্নতার সমস্যা রয়েছে; আমি বর্ণিত পৃষ্ঠটির অনেকগুলি স্থানীয় মিনিমা থাকবে, এবং অতএব গ্রেডিয়েন্ট বংশদ্ভুত অ্যালগরিদমগুলি সেই মিনিমাতে "আটকে" যাওয়ার পক্ষে সংবেদনশীল তবে গভীর / নিম্ন / আরও ভাল সমাধান কাছাকাছি থাকতে পারে। সমস্ত ট্রেনিং পুনরাবৃত্তির উপরে যদি অপরিবর্তিত থাকে তবে এটি সম্ভবত ঘটবে , কারণ প্রদত্ত জন্য পৃষ্ঠটি স্থির করা হয়েছে ; এর বিভিন্ন বৈশিষ্ট্যগুলি বিভিন্ন মিনিমা সহ স্থিতিশীল।এক্সএক্সএক্স
এর সমাধান হ'ল মিনি ব্যাচের প্রশিক্ষণটি বদলে যাওয়া with একটি প্রদত্ত পুনরাবৃত্তির সময় শুধুমাত্র তাদের একটি উপসেট উপর সারি ও প্রশিক্ষণ অদলবদল করার মাধ্যমে, সাথে পরিবর্তনগুলি প্রত্যেক পুনরাবৃত্তির, এবং এটা আসলে খুবই সম্ভব যে প্রশিক্ষণ পুনরাবৃত্তিও ও সময়কাল সমগ্র ক্রম উপর কোন দুই পুনরাবৃত্তিও সঠিক একই সম্পাদনা করা যেতে হবে । এর প্রভাবটি হ'ল সমাধানকারী স্থানীয় ন্যূনতম থেকে খুব সহজেই "বাউন্স" করতে পারেন। কল্পনা করুন যে সমাধানকারী পুনরাবৃত্তির এ স্থানীয় সর্বনিম্ন আটকে প্রশিক্ষণ মিনি- ব্যাচ সঙ্গে । এই স্থানীয় ওজনের একটি নির্দিষ্ট মূল্যে মূল্যায়ন করে; আমরা এটিকেএক্স আমি এক্স আমি ℒ ℒ এক্স আমি ( ওয়াট আমি ) এক্স আমি + + 1 ℒ এক্স আমি + + 1 ( ওয়াট আমি ) ℒ এক্স আমি ( ওয়াট আমি ) ℒ এক্স আমি + + 1 ℒ এক্স আমি ℒ এক্স ওয়াট ওয়াটএক্সএক্সআমিএক্সআমিLLXi(Wi)। পরবর্তী পুনরাবৃত্তিতে আমাদের ক্ষতির পৃষ্ঠের আকৃতিটি আসলে পরিবর্তিত হয় কারণ আমরা using ব্যবহার করছি , অর্থাৎ, from থেকে খুব আলাদা মান গ্রহণ করতে পারে এবং এটি সম্ভব যে এটি কোনও স্থানীয় সাথে মিলে না! আমরা এখন একটি গ্রেডিয়েন্ট আপডেট গণনা করতে পারি এবং প্রশিক্ষণ দিয়ে চালিয়ে যেতে পারি। স্পষ্ট হবে: আকৃতি হবে - সাধারণভাবে - যা থেকে আলাদা হতে। মনে রাখবেন যে, এখানে আমি ক্ষয় ফাংশন উল্লেখ করছি একটি প্রশিক্ষণ সেটে মূল্যায়ন ; এটি সমস্ত সম্ভাব্য মানের তুলনায় সংজ্ঞায়িত একটি সম্পূর্ণ পৃষ্ঠ surfaceXi+1LXi+1(Wi)LXi(Wi)LXi+1LXiLXW, নির্দিষ্ট মানের জন্য সেই ক্ষতির মূল্যায়ন (যা কেবলমাত্র একটি স্কেলার) । এছাড়াও নোট করুন যে যদি মিনি ব্যাচগুলি পরিবর্তন না করে ব্যবহার করা হয় তবে লোকসানের উপরিভাগের "বিবিধকরণ" এর একটি ডিগ্রি এখনও রয়েছে, তবে সলভার দ্বারা দেখা একটি সীমাবদ্ধ (এবং তুলনামূলকভাবে ছোট) সংখ্যার অনন্য ত্রুটি থাকবে (বিশেষত, এটি দেখতে পাবে) মিনি-ব্যাচগুলির একই সঠিক সেট - এবং সেইজন্য লোকসানের পৃষ্ঠগুলি - প্রতিটি যুগের সময়)।W
একটি জিনিস আমি ইচ্ছাকৃতভাবে মিনি-ব্যাচের আকারগুলির আলোচনাটি এড়িয়ে গিয়েছিলাম, কারণ এটি সম্পর্কে মিলিয়ন মতামত রয়েছে এবং এর উল্লেখযোগ্য ব্যবহারিক প্রভাব রয়েছে (বৃহত্তর ব্যাচগুলির সাথে বৃহত্তর সমান্তরালতা অর্জন করা যেতে পারে)। তবে আমি বিশ্বাস করি যে নিম্নলিখিতগুলি উল্লেখযোগ্য। যেহেতু প্রতিটি সারির মান গণনা করে মূল্যায়ন করা হয় (এবং বা গড় গ্রহণ; অর্থাত্ একটি যাত্রী অপারেটর) প্রদত্ত ওজনের ম্যাট্রিকেস সেট জন্য এর সারিগুলির বিন্যাস কার্যকর হয় না যখন পূর্ণ- ব্যবহার করার সময় ব্যাচের গ্রেডিয়েন্ট বংশোদ্ভূত (এটি, যখন প্রতিটি ব্যাচ পুরো , এবং পুনরাবৃত্তি এবং যুগগুলি একই জিনিস হয়)। এক্স ডাব্লু এক্স এক্সLXWX X