উত্তল সমস্যার জন্য, স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত (এসজিডি) এর গ্রেডিয়েন্ট কি সর্বদা বিশ্ব চরম মানকে নির্দেশ করে?


25

অপ্টিমাইজেশনের জন্য এসজিডি ব্যবহার করে একটি উত্তল ব্যয় ফাংশন দেওয়া, অনুকূলিতকরণ প্রক্রিয়া চলাকালীন আমাদের একটি নির্দিষ্ট সময়ে একটি গ্রেডিয়েন্ট (ভেক্টর) থাকবে।

আমার প্রশ্নটি, উত্তলটির বিন্দুটি বিবেচনা করে, গ্রেডিয়েন্টটি কেবলমাত্র সেই দিকে নির্দেশ করে যেখানে ক্রিয়াটি সবচেয়ে দ্রুত বৃদ্ধি / হ্রাস পায়, বা গ্রেডিয়েন্টটি সর্বদা ব্যয় কার্যের সর্বোত্তম / চরম বিন্দুতে নির্দেশ করে ?

পূর্ববর্তী একটি স্থানীয় ধারণা, দ্বিতীয়টি একটি বিশ্বব্যাপী ধারণা।

এসজিডি অবশেষে ব্যয় ফাংশনের চূড়ান্ত মান রূপান্তর করতে পারে। আমি উত্তেজকের উপর একটি স্বেচ্ছাসেবী বিন্দু দেওয়া গ্রেডিয়েন্টের দিক এবং বৈশ্বিক চরম মানকে নির্দেশকারী দিকের মধ্যে পার্থক্য সম্পর্কে ভাবছি।

গ্রেডিয়েন্টের দিকটি সেই দিক হওয়া উচিত যেখানে ফাংশনটি সেই বিন্দুতে সবচেয়ে দ্রুত বাড়ে / হ্রাস পায়, তাই না?


6
আপনি কি কখনও কোনও উপত্যকায় গিয়ে নিজেকে খুঁজে পাওয়ার জন্য পাহাড়ের চূড়া থেকে সোজা উতরাই হাঁটলেন ? চ্যালেঞ্জটি উত্তল টপোগ্রাফির সাথে এমন পরিস্থিতিটি কল্পনা করা: একটি ছুরির প্রান্তটি ভাবুন যেখানে শীর্ষে পর্বতমালা সবচেয়ে শীর্ষে রয়েছে।
হোবার

4
না, কারণ এটি স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত, গ্রেডিয়েন্ট বংশদ্ভুত নয়। এসজিডির পুরো বিষয়টি হ'ল আপনি বর্ধিত গণনামূলক দক্ষতার বিনিময়ে কিছু গ্রেডিয়েন্ট তথ্য ফেলে দিচ্ছেন - তবে স্পষ্টতই কিছু গ্রেডিয়েন্ট তথ্য ফেলে দেওয়ার ক্ষেত্রে আপনি আর মূল গ্রেডিয়েন্টের দিকনির্দেশনা রাখবেন না। এটি ইতিমধ্যে অনুকূল বংশদ্ভুতের দিকে নিয়মিত গ্রেডিয়েন্ট পয়েন্টগুলি রয়েছে কিনা তা অগ্রাহ্য করছে, তবে বিষয়টি নিয়মিত গ্রেডিয়েন্ট বংশোদ্ভূত হলেও, স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত প্রত্যাশা করার কোনও কারণ নেই ।
চিল 2ম্যাচট

3
@ টাইলার, স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত সম্পর্কে আপনার প্রশ্নটি কেন বিশেষভাবে ? আপনি কি স্ট্যান্ডার্ড গ্রেডিয়েন্ট বংশোদ্ভুতের তুলনায় কিছু আলাদা কিছু কল্পনা করেন?
সেক্সটাস এম্পেরিকাস

2
গ্রেডিয়েন্ট সর্বদা এই অর্থে সর্বোত্তমটির দিকে নির্দেশ করবে যে গ্রেডিয়েন্ট এবং ভেক্টরের মধ্যকার কোণটি than এর চেয়ে কম কোণে থাকবে এবং গ্রেডিয়েন্টের দিকে হাঁটলে একটি অসীম পরিমাণ হবে আপনি সর্বোত্তম কাছাকাছি পেতে। π2
মনিকা পুনঃস্থাপন

5
যদি গ্রেডিয়েন্টটি কোনও গ্লোবাল মিনিমাইজারের দিকে সরাসরি নির্দেশিত হয় তবে উত্তল অপ্টিমাইজেশানটি অতি সহজ হয়ে উঠবে, কারণ আমরা তখন একটি বিশ্বব্যাপী মিনিমাইজার সন্ধানের জন্য একটি মাত্রিক লাইন অনুসন্ধান করতে পারি। এটি আশা করা খুব বেশি।
25

উত্তর:


36

তারা বলে যে একটি চিত্র হাজার হাজার শব্দের চেয়ে বেশি মূল্যবান। নিম্নলিখিত উদাহরণে (এমএস পেইন্টের সৌজন্যে, অপেশাদার এবং পেশাদার উভয় পরিসংখ্যানবিদদের জন্য একটি সহজ হাতিয়ার) আপনি একটি উত্তল ফাংশন পৃষ্ঠ এবং এমন একটি বিন্দু দেখতে পাবেন যেখানে খাড়া বংশের দিকটি সর্বোত্তম দিকের দিক থেকে স্পষ্টভাবে পৃথক।

একটি দীর্ঘতর উত্তল ক্রিয়াকলাপ এবং তীরগুলির একটি চিত্র যা দেখায় যে খাড়া বংশের দিকটি বৈশ্বিক সর্বোত্তমের দিকে দিকের মতো নয়

একটি গুরুতর দ্রষ্ট্রে: এই থ্রেডে অনেক উচ্চতর উত্তর রয়েছে যেগুলিও একটি মূল্যায়নের দাবিদার।


27
এবং আজকের পাল্টা উদাহরণ হ'ল ... একটি অ্যাভোকাডো!
জেডিএল

11
আপনি দেখতে পাচ্ছেন যে অ্যাভোকাডো কাটার সময়, বীজ এবং সম্ভাব্য আঘাত এড়াতে আপনার খাড়া বংশোদ্ভূত দিকে কাটা উচিত ।
জান কুকাকা

28
  • গ্রেডিয়েন্ট বংশদ্ভুত পদ্ধতি ব্যবহার ঢাল পৃষ্ঠের।
  • এই হবে না অগত্যা (অথবা এমনকি সম্ভবত নয়) বিন্দু সরাসরি চরম বিন্দু প্রতি।

একটি স্বজ্ঞাত দৃষ্টিভঙ্গি হ'ল উত্সাহিত পথটি একটি বাঁকানো পথ imagine উদাহরণস্বরূপ নীচের উদাহরণগুলি দেখুন।

সাদৃশ্য হিসাবে: কল্পনা করুন যে আমি আপনাকে চোখের পাতায় ফেলেছি এবং চূড়ান্ত (নিম্ন) বিন্দুতে ফিরে যাওয়ার জন্য আপনাকে একটি পাহাড়ে কোথাও রেখেছি। পাহাড়ের উপর, যদি আপনি কেবলমাত্র স্থানীয় তথ্য, তারপর আপনি হয় না যা অভিমুখ হ্রদ নীচে হতে হবে বুদ্ধিমান।

আপনি যদি জড়তা ধরে নিতে পারেন

  • তাহলে আপনি জানেন যে কেবলমাত্র একটি চরম বিন্দু রয়েছে।
  • তারপরে আপনি জানেন যে আপনি যতক্ষণ নিচের দিকে চলে যাবেন ততক্ষণ আপনি অবশ্যই চূড়ান্ত স্থানে পৌঁছে যাবেন।
  • এবং তারপরে আপনি এও জেনে থাকবেন যে খাড়া বংশদ্ভুত দিক এবং সর্বোত্তম দিকের মধ্যবর্তী কোণটি সর্বদা সর্বাধিক π/2 , যেমন মন্তব্যগুলিতে সলোমন অফ সিক্রেট উল্লেখ করেছেন।

উত্তল

জড়তা ছাড়া

  • কোণটি π/2 ছাড়িয়ে যেতে পারে । নীচের চিত্রটিতে একটি নির্দিষ্ট পয়েন্টের জন্য বংশদ্ভুত দিকের একটি তীর আঁকার মাধ্যমে জোর দেওয়া হয়েছে যেখানে চূড়ান্ত সমাধানটি বংশদ্ভুত দিকের লম্বের লম্বের পিছনে রয়েছে

    উত্তল সমস্যার ক্ষেত্রে এটি সম্ভব নয়। সমস্যাটি উত্তেজিত হওয়ার সময় আপনি একই ক্রিয়াকলাপটি একই দিকের ব্যয়যুক্ত ক্রিয়াকলাপের জন্য আইসোলিনগুলির সাথে সম্পর্কিত করতে পারেন।

অ উত্তল

স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত মধ্যে

  • আপনি একক পয়েন্টের জন্য খাড়া দিকটি অনুসরণ করেন (এবং আপনি বারবার পৃথক পয়েন্টের জন্য পদক্ষেপ নেন )। উদাহরণে সমস্যা উত্তল, কিন্তু হতে পারে আরো একাধিক সমাধান। উদাহরণস্বরূপ চূড়ান্ত মানগুলি একটি রেখায় থাকে (একক বিন্দুর পরিবর্তে) এবং এই নির্দিষ্ট দৃষ্টিকোণ থেকে আপনি বলতে পারেন যে খাড়া বংশোদ্ভূত দিকটি সরাসরি "সর্বোত্তম" দিকে নির্দেশ করতে পারে (যদিও এটি কেবলমাত্র কার্যটির জন্য সর্বোত্তম) নির্দিষ্ট প্রশিক্ষণের নমুনা পয়েন্ট)

একক বিন্দু

চারটি ডেটা পয়েন্টের জন্য নীচে আরেকটি ভিউ দেওয়া হয়েছে । চারটি চিত্রের প্রতিটি পৃথক একক পয়েন্টের জন্য পৃষ্ঠটি দেখায়। প্রতিটি ধাপে আলাদা বিন্দু নির্বাচন করা হয় যার সাথে গ্রেডিয়েন্টটি গণনা করা হয়। এটি এমনটি করে যে এখানে কেবল চারটি দিক রয়েছে যেখানে একটি পদক্ষেপ তৈরি করা হয়, তবে যখন আমরা সমাধানের কাছাকাছি আসি তখন ধাপগুলি হ্রাস পায়।

স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত



উপরের চিত্রগুলি ফাংশন দ্বারা উত্পন্ন 4 টি ডেটাপয়েন্টের জন্য:

yi=e0.4xie0.8xi+ϵi

x = 0      2      4      6           
y = 0.006  0.249  0.153  0.098

যার ফলাফল:

  • S(a,b)=i=1(yi(eaxiebxi))2
    S(a,b)=[i=12xieaxi(yieaxiebxi)i=12xiebxi(yieaxiebxi)]

  • S(a,b)=i=1(yi(ae0.4xibe0.8xi))2
    S(a,b)=[i=12e0.4xi(yiae0.4xibe0.8xi)i=12e0.8xi(yiae0.4xibe0.8xi)]

  • i

    S(a,b)=(yi(ae0.4bxibe0.8xi))2
    S(a,b)=[2e0.4xi(yiae0.4xibe0.8xi)2e0.8xi(yiae0.4xibe0.8xi)]
    abS=0


লিখেছেন স্ট্যাকএক্সচেঞ্জ স্ট্রাইক



17

উদ্দেশ্যমূলক ফাংশন দৃ strongly়ভাবে উত্তল থাকলেও খাড়া বংশদ্ভুত অক্ষম হতে পারে ।

সাধারণ গ্রেডিয়েন্ট বংশোদ্ভূত

আমি এই অর্থে "অদক্ষ" বলতে চাইছি যে খাড়া বংশধররা এমন পদক্ষেপ নিতে পারে যা ক্রমবর্ধমান উত্তল বা এমনকি চতুষ্কোণীয় হলেও, সর্বোত্তম থেকে দূরে সরে যেতে পারে।

f(x)=x12+25x22x=[0,0]

f(x)=[2x150x2]

α=0.035x(0)=[0.5,0.5],

x(1)=x(0)αf(x(0))

যা সর্বনিম্নের দিকে এই বন্যভাবে দোলনীয় অগ্রগতির চিত্র প্রদর্শন করে।

এখানে চিত্র বর্ণনা লিখুন

θ(x(i),x)(x(i),x(i+1))

এখানে চিত্র বর্ণনা লিখুন

x2x12f(x)

সর্বনিম্নের সরাসরি পথটি হ'ল এই ফ্যাশনের পরিবর্তে "তির্যকভাবে" সরানো যা ভার্চুয়াল দোলনের দ্বারা দৃ strongly়ভাবে প্রাধান্য পায়। তবে, গ্রেডিয়েন্ট বংশোদ্ভূত কেবল স্থানীয় খাড়া হওয়া সম্পর্কে তথ্য রাখে, সুতরাং কৌশলটি আরও দক্ষ হবে তা "জানেন না" এবং এটি হেসিয়ানের বিভিন্ন আকারের আইজেনুয়ালুগুলির সাথে সম্পর্কিত vag

স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত

আপডেটগুলি শোরগোল ব্যতীত এসজিডির একই বৈশিষ্ট্য রয়েছে যা বোঝায় যে কনট্যুর পৃষ্ঠটি একটি পুনরাবৃত্তির থেকে পরবর্তী অংশে পৃথক দেখাচ্ছে, এবং সেইজন্য গ্রেডিয়েন্টগুলিও পৃথক। এটি সূচিত করে যে গ্রেডিয়েন্ট পদক্ষেপের দিক এবং সর্বোত্তমটির মধ্যে কোণটিও শব্দ করবে - কিছু কল্পনা দিয়ে একই প্লটগুলি কল্পনা করুন।

অধিক তথ্য:


এই উত্তরটি উদাহরণস্বরূপ এবং মার্টিন টি। হাগান, হাওয়ার্ড বি। ডেমুথ, মার্ক হাডসন বিলে, অরল্যান্ডো ডি জেসিসের নিউরাল নেটওয়ার্ক ডিজাইন (২ য় সংস্করণ) অধ্যায় 9 থেকে এই উদাহরণটি তুলে ধরেছে।


13

স্থানীয় খাড়া দিকনির্দেশ বিশ্বব্যাপী সর্বোত্তম দিকনির্দেশের সাথে এক নয়। যদি এটি হয় তবে আপনার গ্রেডিয়েন্ট দিক পরিবর্তন হবে না; কারণ আপনি যদি সর্বদা আপনার সর্বোত্তম দিকে যান তবে আপনার দিকনির্দেশক ভেক্টর সর্বদা সর্বোত্তম নির্দেশ করবে। তবে, বিষয়টি এমন নয়। যদি এটি হয় তবে কেন প্রতিটি পুনরাবৃত্তিতে আপনার গ্রেডিয়েন্ট গণনা করা বিরক্ত করবেন?


3

অন্যান্য উত্তরগুলি জিডি / এসজিডি-র জন্য কিছু বিরক্তিকর হার-রূপান্তরিত সমস্যাগুলি হাইলাইট করে, তবে আপনার মন্তব্য "এসজিডি শেষ পর্যন্ত রূপান্তর করতে পারে ..." সর্বদা সঠিক নয় ("ক্যান" শব্দটি সম্পর্কে পেডেন্টিক ব্যবহারের মন্তব্যগুলি উপেক্ষা করার কারণে এটি মনে হয় যে আপনি বোঝাতে চেয়েছিলেন "ইচ্ছাশক্তি").

(x0,y0)=(1,0)
α
f(x,α)=α2αx.

(f(x0,α)y0)2=α2α,
β
αn+1=αnβ(2αn1)=αn(2αn1)=1αn.
α=12p=12p1p

আমি নিশ্চিত না হলে ন্যুব্জতা কিছু খারাপ আচরণ যে সাধারণ SGD জন্য বিদ্যমান বিরতি যথেষ্ট নই, কিন্তু যদি আপনি এমনকি আপনার খরচ ফাংশন জন্য Cubics হিসাবে হিসাবে জটিল ফাংশন অনুমতি তারপর SGD করতে ডোমেনের একটি ঘন উপসেট উপর প্রায় বড়াই এবং কখনও কোন জায়গায় মিলিত বা যে কোনও চক্রের কাছে যেতে

±

পুরো পরিস্থিতি সম্পর্কে একটি আকর্ষণীয় বিষয় হ'ল সেখানে প্রচুর পরিমাণে অস্তিত্ব রয়েছে (এসজিডি এর মতো) যা স্বেচ্ছাসেবীর উত্তল ক্রিয়াকে ইনপুট হিসাবে গ্রহণ করে এবং তারপরে একটি আপডেটের নিয়ম আউটপুট দেয় যা সর্বদা বিশ্ব সর্বনিম্নে রূপান্তরিত হয় (যদি এটি উপস্থিত থাকে)। যদিও ধারণাগতভাবে সেগুলির প্রচুর পরিমাণে উপস্থিত রয়েছে, উত্তল অপ্টিমাইজেশনে আমাদের সর্বোত্তম প্রচেষ্টাগুলির সমস্তগুলির মধ্যে প্যাথলজিকাল কাউন্টারিক্স উদাহরণ রয়েছে। কোনওরকম একটি সাধারণ / স্বজ্ঞাত / পারফরম্যান্ট আপডেট বিধি ধারণাটি সঠিকভাবে আপডেট আপডেট নিয়মের ধারণার বিপরীতে চলে।


1
β=1

1
নোট করুন যে এসজিডি
কনভার্জেনশন প্রুফ হ্রাসমান

@ মার্তিজজন ওয়েটারিংস ভাল পর্যবেক্ষণ আমার ধারণা আমার উদাহরণটি আসলে সঠিক দিক নির্দেশ করে। আমি কখনই এটি 2D উদাহরণ দিয়ে আপডেট করব যা সঠিক দিক এবং নির্দেশকে কখনই নির্দেশ করে না?
হান্স মুসগ্রেভ

β=1β>0βf(x,α)=α2αxβ.

fβ

2

এই প্রশ্নের উত্তরের জন্য দ্রুত আপডেট দরকার। দেখে মনে হয় যে এসজিডি বিশ্বব্যাপী সর্বনিম্ন ফলন করেও নন-উত্তল ক্ষেত্রে (উত্তলটি কেবল এটির একটি বিশেষ ক্ষেত্রে):

আইসিএলআর 2019 এ ডাবল ব্লাইন্ড পর্যালোচনার অধীনে এসজিডি স্টার-কনভেক্স পাথ, অজ্ঞাতনামা লেখক , কাগজের মাধ্যমে ডিপ লার্নিংয়ে গ্লোবাল নূন্যতমে রূপান্তরিত করে

https://openreview.net/pdf?id=BylIciRcYQ

সাধারণত নিউরাল নেটওয়ার্ক প্রশিক্ষণে আসা ননকনভেক্স অপ্টিমাইজেশান সমস্যার জন্য লেখকরা এসজিডিকে একটি সর্বনিম্ন ন্যূনতম রূপান্তরিত করে। যুক্তি নিম্নলিখিত দুটি গুরুত্বপূর্ণ বৈশিষ্ট্যকে কাজে লাগায়: 1) প্রশিক্ষণ ক্ষতি শূন্যের মান অর্জন করতে পারে (প্রায়); 2) এসজিডি একটি তারা-উত্তল পথ অনুসরণ করে। এই জাতীয় প্রসঙ্গে, যদিও এসজিডি দীর্ঘদিন ধরে এলোমেলোমী অ্যালগরিদম হিসাবে বিবেচিত হয়ে আসছে, তবে কাগজটি প্রকাশ করেছে যে এটি একটি অভ্যন্তরীণ নির্বিচার পদ্ধতিতে বিশ্ব সর্বনিম্নে রূপান্তরিত করে।

যদিও এটি নুনের দানা দিয়ে নেওয়া উচিত। কাগজটি এখনও পর্যালোচনাধীন রয়েছে।

নক্ষত্র-উত্তল পথের ধারণাটি প্রতিটি পুনরাবৃত্তির দিকে গ্রেডিয়েন্টটি নির্দেশ করবে এমন দিকে একটি ইঙ্গিত দেয়।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.