উত্তোলন অপ্টিমাইজেশনে দ্বিতীয়-ক্রম ডেরাইভেটিভস কেন কার্যকর?


18

আমি অনুমান করি এটি একটি প্রাথমিক প্রশ্ন এবং এটি গ্রেডিয়েন্টের দিকনির্দেশনার সাথেই করতে পারে তবে আমি উদাহরণগুলি সন্ধান করছি যেখানে ২ য় ক্রম পদ্ধতি (যেমন বিএফজিএস ) সাধারণ গ্রেডিয়েন্ট বংশোদ্ভূত থেকে বেশি কার্যকর।


3
"কেবলমাত্র এই লিনিয়ার ফাংশনটির সর্বাধিক সন্ধান করুন" এর চেয়ে "ন্যূনতম সন্ধান করুন" সমস্যার ("অবশ্যই, কোনও ন্যূনতম নেই কারণ" এটি একটি "ন্যূনতম সন্ধান করুন" এর চেয়ে আরও ভাল সমীকরণ এটি পর্যালোচনা করা কি খুব সরল? রৈখিক)?

উত্তর:


20

গ্রেডিয়েন্ট বংশোদ্ভূত এবং নিউটনের পদ্ধতি উভয়ের ব্যাখ্যা করার জন্য এখানে একটি সাধারণ কাঠামো রয়েছে, যা @ সাইকোরাক্সের উত্তরের পরিপূরক হিসাবে পার্থক্যটি ভাবার পক্ষে একটি দরকারী উপায়। (বিএফজিএস নিউটনের পদ্ধতিটি প্রায় অনুমান করে; আমি এখানে বিশেষভাবে এটি নিয়ে কথা বলব না।)

আমরা কমানোর করছি ফাংশন f , কিন্তু আমরা সরাসরি করতে কিভাবে জানি না। সুতরাং, পরিবর্তে, আমরা আমাদের বর্তমান সময়ে একটি স্থানীয় পড়তা নেওয়া x এবং যে কমান।

নিউটনের পদ্ধতিটি দ্বিতীয়-আদেশের টেলর সম্প্রসারণ ব্যবহার করে ফাংশনটি প্রায় অনুমান করে:

f(y)Nx(y):=f(x)+f(x)T(yx)+12(yx)T2f(x)(yx),
যেখানেf(x) এর গ্রেডিয়েন্ট উল্লেখ করেf সময়েx এবং2f(x) এ চটx । তখনই করার জন্য পদক্ষেপargminyNx(y) এবং পুনরাবৃত্তি করে।

গ্রেডিয়েন্ট বংশোদ্ভূত, কেবলমাত্র গ্রেডিয়েন্ট এবং হেসিয়ান নয়, কেবল প্রথম অর্ডারটি প্রায় অনুমান করতে পারে এবং এটি হ্রাস করতে পারে না, যেহেতু @ হার্কাইল উল্লেখ করেছেন যে এর কোনও ন্যূনতম নেই। পরিবর্তে, আমরা একটি ধাপের আকার এবং x - t f ( x ) থেকে ধাপে সংজ্ঞায়িত করি । তবে লক্ষ করুন যে এক্স - টিtxtf(x) সুতরাং গ্রেডিয়েন্ট বংশোদ্ভূত একটি ফাংশন হ্রাস করে জিx(y):=f(x)+f(x)টি(y-x)+1

xtf(x)=argmaxy[f(x)+f(x)T(yx)+12tyx2]=argmaxy[f(x)+f(x)T(yx)+12(yx)T1tI(yx)].
Gx(y):=f(x)+f(x)T(yx)+12(yx)T1tI(yx).

সুতরাং গ্রেডিয়েন্ট বংশোদ্ভূততা নিউটনের পদ্ধতিটি ব্যবহারের মতো, তবে দ্বিতীয়-আদেশের টেলর সম্প্রসারণের পরিবর্তে, আমরা ভান করি যে হেসিয়ান । এইজিপ্রায়ই করার জন্য একটি যথেষ্ট খারাপ পড়তা হয়চেয়েএন, তাই গ্রেডিয়েন্ট বংশদ্ভুত প্রায়ই নিউটনের পদ্ধতি চেয়ে অনেক খারাপ পদক্ষেপ নেয়। এটি অবশ্যই ভারসাম্যযুক্ত, গ্রেডিয়েন্ট বংশোদ্ভূত প্রতিটি পদক্ষেপে নিউটনের পদ্ধতির প্রতিটি ধাপের তুলনায় গণনা করা এত সস্তা। কোনটি আরও ভাল তা সম্পূর্ণরূপে সমস্যার প্রকৃতি, আপনার গণনা সংস্থান এবং আপনার যথার্থতার প্রয়োজনীয়তার উপর নির্ভর করে।1tIGfN

চতুর্ভুজ f ( x ) = 1 হ্রাস করার জন্য @ সাইকোরাক্সের উদাহরণের দিকে তাকিয়ে এক মুহুর্তের জন্য, এটি লক্ষণীয় যে এই দৃষ্টিভঙ্গি উভয় পদ্ধতি বোঝার জন্য সহায়তা করে।

f(x)=12xTAx+dTx+c

নিউটনের পদ্ধতি অনুসারে, আমাদের কাছে যাতে এটি একক ধাপে সঠিক উত্তরের (ভাসমান পয়েন্ট যথাযথতার বিষয়ে) সমাপ্ত হয়।N=f

অন্যদিকে গ্রেডিয়েন্ট বংশোদ্ভূত

Gx(y)=f(x)+(Ax+d)Ty+12(xy)T1tI(xy)
xA

1
এটি @ আকসাকালের উত্তরের মতো , তবে আরও গভীরতায়।
ডুগাল

1
(+1) এটি দুর্দান্ত সংযোজন!
সাইকোরাক্স বলছে মনিকা

17

মূলত, নিউটনের পদ্ধতির মতো দ্বিতীয়-ডেরাইভেটিভ পদ্ধতির সুবিধাটি হ'ল এতে চতুর্ভুজ সমাপ্তির গুণমান রয়েছে। এর অর্থ এটি একটি সীমাবদ্ধ পদক্ষেপের একটি চতুর্ভুজ ফাংশনকে হ্রাস করতে পারে। গ্রেডিয়েন্ট বংশোদ্ভূত মতো একটি পদ্ধতি শিখার হারের উপর খুব বেশি নির্ভর করে, যার ফলে অপ্টিমাইজেশনটি ধীরে ধীরে রূপান্তরিত করতে পারে কারণ এটি সর্বোত্তমের আশেপাশে উত্থিত হয়, বা পুরোপুরি বিচ্যুত হতে পারে। স্থিতিশীল শেখার হার সন্ধান করা যেতে পারে ... তবে হেসিয়ান গণনা জড়িত। এমনকি স্থিতিশীল শেখার হার ব্যবহার করার সময়ও আপনার সর্বোত্তম আশেপাশের দোলনের মতো সমস্যা হতে পারে, আপনি সর্বদা সর্বনিম্নের দিকে কোনও "সরাসরি" বা "দক্ষ" পথ গ্রহণ করবেন না। সুতরাং এটি সমাপ্ত করতে অনেকগুলি পুনরুক্তি নিতে পারে, এমনকি যদিআপনি তুলনামূলকভাবে এটি কাছাকাছি। বিএফজিএস এবং নিউটনের পদ্ধতিটি প্রতিটি পদক্ষেপের গুণগত প্রচেষ্টা আরও ব্যয়বহুল হলেও আরও দ্রুত রূপান্তর করতে পারে।

এফ(এক্স)=12এক্সটিএকজনএক্স+ +টিএক্স+ +
গ্রেডিয়েন্ট হয়
এফ(এক্স)=একজনএক্স+ +
এবং ধ্রুবক শিক্ষার হার সহ এটিকে খাড়া বংশোদ্ভূত ফর্মটিতে স্থাপন করা
এক্স+ +1=এক্স-α(একজনএক্স+ +)=(আমি-αএকজন)এক্স-α

এর ইগেনভেেক্টরগুলির দৈর্ঘ্য যদি এটি স্থিতিশীল হয় আমি-αএকজন স্থির শেখার হার সন্তুষ্ট করে তা দেখানোর জন্য আমরা এই সম্পত্তিটি ব্যবহার করতে পারি

α<2λmax,
where λmax is the largest eigenvalue of A. The steepest descent algorithm's convergence rate is limited by the largest eigenvalue and the routine will converge most quickly in the direction of its corresponding eigenvector. Likewise, it will converge most slowly in directions of the eigenvector of the smallest eigenvalue. When there is a large disparity between large and small eigenvalues for A, gradient descent will be slow. Any A with this property will converge slowly using gradient descent.

In the specific context of neural networks, the book Neural Network Design has quite a bit of information on numerical optimization methods. The above discussion is a condensation of section 9-7.


Great answer! I'm accepting @Dougal 's answer as I think it provides a simpler explanation.
Bar

6

In convex optimization you are approximating the function as the second degree polynomial in one dimensional case:

f(x)=c+βx+αx2

In this case the the second derivative

2f(x)/x2=2α

If you know the derivatives, then it's easy to get the next guess for the optimum:

guess=β2α

The multivariate case is very similar, just use gradients for derivatives.


2

@Dougal already gave a great technical answer.

The no-maths explanation is that while the linear (order 1) approximation provides a “plane” that is tangential to a point on an error surface, the quadratic approximation (order 2) provides a surface that hugs the curvature of the error surface.

The videos on this link do a great job of visualizing this concept. They display order 0, order 1 and order 2 approximations to the function surface, which just intuitively verifies what the other answers present mathematically.

Also, a good blogpost on the topic (applied to neural networks) is here.

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.