গ্রেডিয়েন্ট বংশদ্ভুত অপ্টিমাইজেশন


9

আমি এমএল (মেশিন লার্নিং) অ্যালগরিদমে গ্রেডিয়েন্ট বংশদ্ভুত অপ্টিমাইজেশন বোঝার চেষ্টা করছি am আমি বুঝতে পারি যে একটি ব্যয় ফাংশন রয়েছে — যেখানে লক্ষ্যটি হ'ল ত্রুটি হ্রাস করা টু । এমন এক যেখানে ওজন ন্যূনতম ত্রুটি দেওয়ার জন্য অপ্টিমাইজ করা হচ্ছে, এবং আংশিক ডেরিভেটিভস ব্যবহার করা হচ্ছে, এটি কি প্রতিটি পদক্ষেপে এবং উভয়ই পরিবর্তন করে বা এটি একটি সংমিশ্রণ (উদাহরণস্বরূপ, কয়েকটি পুনরাবৃত্তিতে কেবল পরিবর্তন হয় এবং যখন আর না, ডেরিভেটিভ দিয়ে শুরু হয় )? অ্যাপ্লিকেশনটি লিনিয়ার রিগ্রেশন মডেল, লজিস্টিক রিগ্রেশন মডেল বা আলগোরিদিম বাড়ানো হতে পারে।Y^-YW1,W2W1W2W1W1W2

উত্তর:


10

গ্রেডিয়েন্ট বংশদ্ভুত প্রতিটি পদক্ষেপে সমস্ত পরামিতি আপডেট করে। আপনি আপডেটের নিয়মে এটি দেখতে পারেন:

W(টি+ +1)=W(টি)-η(W(টি))

যেহেতু ক্ষতি ফাংশনের গ্রেডিয়েন্ট ডাব্লু এর সাথে ডাইমেনশনের সাথে , তাই প্রতিটি পরামিতিগুলিতে সমস্ত পরামিতি আপডেট করা হয়।(W)W

শেখার হার একটি ধনাত্মক সংখ্যা যা গ্রেডিয়েন্টটিকে আবার স্কেল করে। খুব বড় পদক্ষেপ নেওয়া আপনার ক্ষতির কার্যকারিতার কোনও উন্নতি না করেই ক্ষতির পৃষ্ঠ জুড়ে নিরবিচ্ছিন্নভাবে আপনাকে বাউস করতে পারে; খুব ছোট একটি পদক্ষেপের অর্থ ক্লান্তিকরভাবে সর্বোত্তমটির দিকে ধীর অগ্রগতি হতে পারে।η

যদিও আপনি গ্রেডিয়েন্ট বংশদ্ভুত ব্যবহার করে লিনিয়ার রিগ্রেশন প্যারামিটারগুলি অনুমান করতে পারেন তবে এটি ভাল ধারণা নয়।

তেমনি, লজিস্টিক রিগ্রেশন সহগগুলি অনুমান করার আরও ভাল উপায় রয়েছে।


সুতরাং অ্যালগরিদম স্থানীয় মিনিমাতে পৌঁছানোর জন্য আংশিক ডেরিভেটিভ থেকে দিকের উপর ভিত্তি করে বৃদ্ধি w1, হ্রাস ইত্যাদির মতো বিভিন্ন সংমিশ্রণের চেষ্টা w2করতে পারে এবং অ্যালগরিদমটি নিশ্চিত করার জন্য সর্বদা বিশ্বব্যাপী মিনিমাকে দেবে না?
Pb89

এবং আংশিক ডেরাইভেটিভ কীভাবে বাড়াতে বা হ্রাস করতে হয়েছে w1এবং w2বা হার / সংকোচনের মাধ্যমে শেখা হয়েছে যখন আংশিক ডেরিভেটিভ কেবল বংশোদ্ভূত দিক নির্দেশনা দেয় তা ব্যাখ্যা করতেও কী সহায়তা করে ?
Pb89

গ্রেডিয়েন্টটি একটি ভেক্টর, সুতরাং এটি একটি দিক এবং একটি মাত্রা দেয়। কোনও ভেক্টরকে ধনাত্মক স্কেলারের মাধ্যমে নির্বিচারে পুনরুদ্ধার করা যায় এবং এর একই দিকও থাকবে তবে উদ্ধারকারীটি তার প্রস্থকে পরিবর্তন করবে।
সাইকোরাক্স মনিকে

যদি গ্রেডিয়েন্টটিও যদি গ্রেডিয়েন্ট দিয়ে থাকে তবে সঙ্কুচিত বা শেখার হারের ভূমিকা কী?
Pb89

শিক্ষার হার গ্রেডিয়েন্টকে পুনর্বিবেচিত করে। ধরুন এর একটি বৃহত্তর আদর্শ (দৈর্ঘ্য) রয়েছে। একটি বড় পদক্ষেপ গ্রহণ আপনাকে ক্ষতির পৃষ্ঠের দূরবর্তী অংশে স্থানান্তরিত করবে (এক পাহাড় থেকে অন্য পাহাড়ে ঝাঁপিয়ে পড়া)। গ্রেডিয়েন্ট বংশদ্ভুতের মূল সমর্থনযোগ্যতা হ'ল এটি এর আশেপাশে একটি রৈখিক সমীকরণ(এক্স)W(টি)। এই অনুমানটি সর্বদা অক্ষত, তবে আপনি যেখান থেকে সরিয়েছেন এটি সম্ভবত আরও খারাপ - অতএব, আপনি ছোট পদক্ষেপ নিতে চান, তাই আপনি কিছুটা ছোট ব্যবহার করেনη, যেখানে 'ছোট' সম্পূর্ণ সমস্যা-নির্দিষ্ট।
সাইকোরাক্স মনিকে

7

যখন আংশিক ডেরিভেটিভগুলির মাধ্যমে অপ্টিমাইজেশন ঘটে থাকে, প্রতিটি ঘুরে এটি ডাব্লু 1 এবং ডাব্লু 2 উভয়ই পরিবর্তন করে বা এটি কয়েকটি পুনরাবৃত্তির মতো সংমিশ্রণে কেবল ডাব্লু 1 পরিবর্তিত হয় এবং ডাব্লু 1 যখন ত্রুটিটি আরও কমায় না, ডাইরিভেটিভ ডাব্লু 2 - থেকে শুরু হয় লোকাল মিনিমে পৌঁছাবেন?

প্রতিটি পুনরাবৃত্তিতে, অ্যালগরিদম গ্রেডিয়েন্ট ভেক্টরের উপর ভিত্তি করে একই সাথে সমস্ত ওজন পরিবর্তন করবে। আসলে, গ্রেডিয়েন্ট একটি ভেক্টর। গ্রেডিয়েন্টের দৈর্ঘ্য মডেলের ওজনগুলির সংখ্যার সমান।

অন্যদিকে, একবারে একটি প্যারামিটার পরিবর্তন করার অস্তিত্ব ছিল এবং এটিকে স্থায়ী শালীন অ্যালগরিদম বলা হয় , যা এক ধরণের গ্রেডিয়েন্ট ফ্রি অপ্টিমাইজেশন অ্যালগরিদম । অনুশীলনে, এটি গ্রেডিয়েন্ট ভিত্তিক অ্যালগরিদমের পাশাপাশি কাজ করতে পারে না।

গ্রেডিয়েন্ট ফ্রি অ্যালগরিদমের একটি আকর্ষণীয় উত্তর এখানে

ব্যাকপ্রসারণ ছাড়াই কি নিউরাল নেটওয়ার্ক প্রশিক্ষণ দেওয়া সম্ভব?


1

গ্রেডিয়েন্ট বংশোদ্ভূত লক্ষ্যটি হ'ল ব্যয় কার্যকারিতা হ্রাস করা। আপনার কেস ডাব্লু 1 এবং ডাব্লু 2 এর জন্য ওজন সামঞ্জস্য করে এই হ্রাসটি অর্জন করা সম্ভব। সাধারণভাবে হতে পারে এন যেমন ওজন।

গ্রেডিয়েন্ট বংশদ্ভুত নিম্নলিখিত উপায়ে সম্পন্ন করা হয়:

  1. এলোমেলোভাবে ওজন সূচনা।
  2. আরম্ভকৃত ওজন সহ ব্যয় কার্য এবং গ্রেডিয়েন্ট গণনা করুন।
  3. আপডেট ওজন: এটি হতে পারে যে কিছু ওজনের জন্য গ্রেডিয়েন্ট ও হয়, সেক্ষেত্রে সেই ওজনগুলি আপডেট হওয়ার পরে কোনও পরিবর্তন দেখায় না। উদাহরণস্বরূপ: ধরুন গ্রেডিয়েন্টটি [1,0] ডাব্লু 2 অপরিবর্তিত থাকবে।
  4. আপডেট ওজন সহ ব্যয় ফাংশনটি পরীক্ষা করুন, যদি হ্রাস যথেষ্ট গ্রহণযোগ্য হয় তবে পুনরাবৃত্তির অবসান ঘটাতে হবে else

ওজন আপডেট করার সময় কোন ওজন (ডাব্লু 1 বা ডাব্লু 2) পরিবর্তিত হয় তা গ্রেডিয়েন্ট দ্বারা সম্পূর্ণ সিদ্ধান্ত নেওয়া হয়। সমস্ত ওজন আপডেট হয় (কিছু ওজন গ্রেডিয়েন্টের ভিত্তিতে পরিবর্তিত হতে পারে না)।


"যদি হ্রাসটি যথেষ্ট পরিমাণে গ্রহণযোগ্য হয় তবে পুনরাবৃত্তির অবসান ঘটবে", অজগর ( sklearn) বা আর প্যাকেজগুলির প্যাকেজগুলিতে প্রয়োগ করা হয় এমন কোনও ডিফল্ট মান আছে caretকি? এটি কেবলমাত্র ম্যানুয়ালি তৈরি গ্রেডিয়েন্ট বংশোদ্ভূত কার্যক্রমে নির্দিষ্ট করা যেতে পারে?
Pb89

1

গ্রেডিয়েন্ট শালীন উভয় w1এবং w2প্রতিটি পুনরাবৃত্তির জন্য প্রয়োগ করা হয় । প্রতিটি পুনরাবৃত্তির সময়, প্যারামিটারগুলি গ্রেডিয়েন্টগুলি অনুযায়ী আপডেট হয়। তারা সম্ভবত বিভিন্ন আংশিক ডেরাইভেটিভ হতে পারে।

এখানে চেক করুন

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.