মিনি ব্যাচ গ্রেডিয়েন্ট বংশোদ্ভূত কীভাবে প্রতি ব্যাচের প্রতিটি উদাহরণের জন্য ওজন আপডেট করে?


12

যদি আমরা একটি ব্যাচে 10 টি উদাহরণ বলতে প্রক্রিয়াকরণ করি তবে আমি বুঝতে পারি যে আমরা প্রতিটি উদাহরণের জন্য ক্ষতির পরিমাণ তুলতে পারি, তবে প্রতিটি উদাহরণের জন্য ওজন আপডেট করার ক্ষেত্রে ব্যাকপ্রসারণ কীভাবে কাজ করে?

উদাহরণ স্বরূপ:

  • উদাহরণ 1 -> ক্ষতি = 2
  • উদাহরণ 2 -> ক্ষতি = -2

এটির গড় ক্ষতি হয় 0 (ই = 0) এর ফলে, সুতরাং এটি কীভাবে প্রতিটি ওজন আপডেট করবে এবং একত্রিত হবে? এটি কি খুব সহজেই খুব দ্রুত বা পরে ব্যাচগুলির র্যান্ডমাইজেশন দ্বারা "আশাবাদী" রূপান্তরিত হয়? এছাড়াও এটি কেবল শেষ উদাহরণের জন্য প্রথম ওজনের প্রথম সেটটির গ্রেডিয়েন্টটি গণনা করে না?

উত্তর:


15

গ্রেডিয়েন্ট বংশোদ্ভূত আপনার প্রস্তাব মতো কাজ করে না তবে একই ধরণের সমস্যা দেখা দিতে পারে।

আমরা ব্যাচ থেকে গড় ক্ষতি গণনা করি না, আমরা ক্ষতির কার্যকারিতার গড় গ্রেডিয়েন্টগুলি গণনা করি। গ্রেডিয়েন্টগুলি ওজনের সাথে সম্মানের সাথে ক্ষতির ডাইরিভেটিভ এবং নিউরাল নেটওয়ার্কে এক ওজনের জন্য গ্রেডিয়েন্ট সেই নির্দিষ্ট উদাহরণের ইনপুটগুলির উপর নির্ভর করে এবং এটি মডেলের অন্যান্য অনেক ওজনের উপরও নির্ভর করে।

যদি আপনার মডেলটির 5 টি ওজন হয় এবং আপনার মিনি-ব্যাচের আকার 2 থাকে তবে আপনি এটি পেতে পারেন:

উদাহরণ 1. ক্ষতি = 2,গ্রেডিয়েন্ট=(1.5,-2.0,1.1,0.4,-0.9)

উদাহরণ 2. ক্ষতি = 3,গ্রেডিয়েন্ট=(1.2,2.3,-1.1,-0.8,-0.7)

এই মিনি-ব্যাচের গ্রেডিয়েন্টগুলির গড় গণনা করা হয়, সেগুলি(1.35,0.15,0,-0.2,-0.8)

বেশ কয়েকটি উদাহরণের গড় গড় সুবিধা হ'ল গ্রেডিয়েন্টের পার্থক্য কম তাই শিক্ষাগুলি আরও সামঞ্জস্যপূর্ণ এবং একটি উদাহরণের নির্দিষ্টকরণের উপর কম নির্ভরশীল। লক্ষ্য করুন যে তৃতীয় ওজনের গড় গ্রেডিয়েন্ট কীভাবে হয় , এই ওজনটি এই ওজন আপডেটটি পরিবর্তন করে না তবে পরবর্তী ওজনের সাথে বেছে নেওয়া পরবর্তী উদাহরণগুলির জন্য এটি শূন্য নয় which0

মন্তব্যের জবাবে সম্পাদনা করুন:

আমার উদাহরণে উপরে গ্রেডিয়েন্টগুলির গড় গণনা করা হয়। একটি মিনি- ব্যাচ আকার জন্য যেখানে আমরা ক্ষয় নিরূপণ আমরা একে উদাহরণস্বরূপ এবং একটি ওজন থেকে সম্মান সঙ্গে ক্ষতির গড় গ্রেডিয়েন্ট পেতে তাগ ।এল আই ডব্লু জেএলআমিW

আমার উদাহরণে আমি এটি যেভাবে লিখেছি আমি প্রতিটি গ্রেডিয়েন্টের গড় গড় গড় করেছি:এলW=1Σআমি=1এলআমিW

মন্তব্যে আপনি যে টিউটোরিয়াল কোডটি লিঙ্ক করেছেন সেটি গড় ক্ষতি হ্রাস করতে টেনসরফ্লো ব্যবহার করে।

টেনসরফ্লো লক্ষ্য করে1Σআমি=1এলআমি

এটি হ্রাস করতে এটি প্রতিটি ওজনের সাথে সম্মানের সাথে গড় ক্ষতির গ্রেডিয়েন্টগুলি গণনা করে এবং ওজন আপডেট করার জন্য গ্রেডিয়েন্ট-ডেসেন্ট ব্যবহার করে:

এলW=W1Σআমি=1এলআমি

পার্থক্যের যোগফলের ভিতরে আনা যায় তাই এটি আমার উদাহরণের পদ্ধতির কাছ থেকে প্রকাশের মত।

W1Σআমি=1এলআমি=1Σআমি=1এলআমিW


Gotcha। আপনি এখনও ব্যাচ_সাইজ ধরে ক্ষতির গড় গড় করতে চান? আপনি যদি টেনস্রফ্লোয়ের সাথে পরিচিত হন তবে আমি নিশ্চিত নই তবে আমি এই টিউটোরিয়ালটির সাথে আমার বোঝার পুনর্মিলন করার চেষ্টা করছি: tensorflow.org/get_st সূত্র / mnist / beginners আপনি দেখতে পাচ্ছেন যে ক্ষতিটি ব্যাচের উপরে গড় হয়েছে (হ্রাস_মীন কোড)। আমি মনে করি টেনসরফ্লো ওজনের গড় অভ্যন্তরীণ গণনা / গড় রাখে?
কার্বনকম্পিউটেড

1
@ কার্বনকম্পটেড ওহ হ্যাঁ আপনি ঠিকই বলেছেন, তারা লোকসানের গড় হার তৈরি করে যাতে টেনসরফ্লো যখন গড় ক্ষতির গ্রেডিয়েন্টগুলি গণনা করে এটি প্রতিটি ক্ষতির জন্য গ্রেডিয়েন্টের গড়কে কার্যকরভাবে গণনা করে। আমি এই জন্য গণিত দেখানোর জন্য আমার উত্তর সম্পাদনা করব।
হিউ

মজাদার. স্পষ্টতার জন্য ধন্যবাদ। সুতরাং কিছুটা গভীর খনন করার জন্য, ফরওয়ার্ড পাসের সময় ওজনের গ্রেডিয়েন্টগুলি উদাহরণ হিসাবে গণনা করা হয় এবং সংরক্ষণ করা হয় বা এগুলি টেনসরফ্লোতে অপ্টিমাইজেশন প্রক্রিয়া চলাকালীন গণনা করা হয়? আমি মনে করি আমি সবেমাত্র "কোথায়" নিখোঁজ হচ্ছি এই গ্রেডিয়েন্টগুলি টেনস্রোফ্লোতে রয়েছে? আমি ফরোয়ার্ড পাস এবং লোকসানটি দেখতে পাচ্ছি, তাই টেনস্রোফ্লো আমার জন্য ফণার নীচে এই গ্রেডিয়েন্ট গণনাগুলি / গড় গড়ে চলেছে?
কার্বনগঠিত

1
@ কার্বনকম্পটেড এটি টেনসরফ্লোয়ের আবেদন, এটি প্রতীকী গণিত ব্যবহার করে এবং হুডের নীচে পার্থক্য করতে পারে
হিউ

ঝরঝরে জবাবের জন্য আপনাকে ধন্যবাদ। যাইহোক, আমি বুঝতে মেমরি কিভাবে জানেন যেমন দেখানো কিভাবে গড়ে ক্ষতি সঙ্গে সঞ্চারিত ব্যাক করতে ব্যর্থ এই উদাহরণে , code line 170?
পাপী

-1

মিনি ব্যাচগুলি ব্যবহারের কারণ হিসাবে প্রচুর পরিমাণে প্রশিক্ষণের উদাহরণ থাকতে পারে যে এটির সম্ভাব্য আওয়াজগুলি তাদের প্রভাবগুলি গড়ের মাধ্যমে হ্রাস করা যায়, তবে এটি একটি সম্পূর্ণ ব্যাচও নয় যে অনেকগুলি ডেটাসেটের জন্য প্রচুর পরিমাণে মেমরির প্রয়োজন হতে পারে। একটি গুরুত্বপূর্ণ সত্য আপনি যে ত্রুটিটি মূল্যায়ন করেন তা সর্বদা দূরত্বে থাকেআপনার পূর্বাভাসিত আউটপুট এবং আসল আউটপুটটির মধ্যে: এর অর্থ হল এটি নেতিবাচক হতে পারে না, সুতরাং আপনি যেমনটি বলেছিলেন, 2 এবং -2 এর ত্রুটি যা বাতিল হয়ে যায়, তবে এটি পরিবর্তে 4 এর ত্রুটি হয়ে যাবে আপনি তারপরে সমস্ত ওজনের ক্ষেত্রে ত্রুটির গ্রেডিয়েন্টটি মূল্যায়ন করুন, যাতে আপনি ওজনে কোন পরিবর্তনটি এটি সবচেয়ে কমিয়ে আনতে পারে তা গণনা করতে পারেন। একবার আপনি এটি করার পরে, আপনার শিক্ষার হার আলফার পরিমাণের উপর ভিত্তি করে আপনি সেই দিকটিতে একটি "পদক্ষেপ" নিয়ে যান। (এটি মূল ধারণাগুলি, আমি গভীর এনএন এর ব্যাকপ্রসারণ সম্পর্কে বিস্তারিতভাবে যাচ্ছি না) নির্দিষ্ট সংখ্যক যুগের জন্য আপনার ডেটাसेटে এই প্রশিক্ষণটি চালানোর পরে, আপনি যদি আপনার শেখার পদক্ষেপটি খুব বড় না করেন তবে আপনার নেটওয়ার্কটি রূপান্তরিত হতে পারে বলে আশা করতে পারেন এটি ডাইভার্জ করা আপনি এখনও স্থানীয় সর্বনিম্ন শেষ করতে পারেন, আপনার ওজনকে আলাদাভাবে আরম্ভ করে, ডিফারনর অপ্টিমাইজার ব্যবহার করে এবং নিয়মিত করার চেষ্টা করে এড়ানো যায়।


কেবল যোগ করতে: আমরা মিনি-ব্যাচগুলি বেশিরভাগই গণনা দক্ষতার জন্য ব্যবহার করি। আমাদের বংশদ্ভুততার সঠিকতা এবং ওজন আপডেট করার ফ্রিকোয়েন্সি এর মধ্যে একটি বাণিজ্য রয়েছে। স্মৃতিতে ফিট না করার জন্য ডেটা অত্যন্ত বড় হতে হবে
asukasz গ্রেড

আমি প্রত্যেকে বুঝতে পারি, তবে আমরা কীভাবে একটি নির্দিষ্ট ব্যাচের জন্য আমাদের ওজন আপডেট করব? ওজন গ্রেডিয়েন্টগুলিও কি প্রতিটি উদাহরণের জন্য সংক্ষিপ্ত?
কার্বনগঠিত

না, মোট ব্যাচের ত্রুটিতে একটি মাত্র গ্রেডিয়েন্ট রয়েছে, যা ডেরাইভেটিভসের ভেক্টর। এর অর্থ হ'ল আমরা একবার গ্রেডিয়েন্টের উপর ভিত্তি করে আমাদের ওজন আপডেট করি, অর্থাৎ আপডেটের দিকনির্দেশ যা এই মিনি ব্যাচের ত্রুটিটিকে সবচেয়ে কমিয়ে দেয়। গ্রেডিয়েন্টটি আংশিক ডেরিভেটিভস দিয়ে তৈরি, এটি প্রতিটি ওজনের সাথে সম্মতভাবে মিনি ব্যাচের ত্রুটিযুক্ত ডাইরিভেটিভ পিএফ: এটি আমাদের জানিয়ে দেয় যে প্রতিটি ওজন আরও ছোট বা বড় হওয়া উচিত এবং কতটা। অন্যান্য মিনি ব্যাচ থেকে স্বতন্ত্র যে মিনি ব্যাচের ত্রুটিটি হ্রাস করতে সমস্ত ওজন ব্যাচের জন্য একটি আপডেট পায়।
ড্যান্ট করুন
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.