আমি একটি সাধারণ মন্তব্য দিয়ে শুরু করব: প্রথম অর্ডার সম্পর্কিত তথ্য (যেমন, কেবলমাত্র গ্রেডিয়েন্টগুলি ব্যবহার করে, যা opeালকে এনকোড করে) কেবল আপনাকে দিকনির্দেশক তথ্য দিতে পারে: এটি আপনাকে বলতে পারে যে ফাংশনের মান অনুসন্ধানের দিক থেকে হ্রাস পাবে, তবে কতক্ষণের জন্য নয় । অনুসন্ধানের দিকটি কতটা দূরে যেতে হবে তা নির্ধারণ করতে আপনার অতিরিক্ত তথ্যের প্রয়োজন (ধ্রুব পদক্ষেপের দৈর্ঘ্যের সাথে গ্রেডিয়েন্ট বংশোদ্ভূত উত্তল চতুর্ভুজ সমস্যার জন্যও ব্যর্থ হতে পারে)। এর জন্য, আপনার মূলত দুটি পছন্দ রয়েছে:
- ব্যবহার করুন দ্বিতীয় আদেশ তথ্য (যার জন্য আপনি সবসময় পদক্ষেপ দৈর্ঘ্য ব্যবহার করতে পারেন গ্রেডিয়েন্ট বংশদ্ভুত পরিবর্তে নিউটনের পদ্ধতি ব্যবহার করে (যা বক্রতা এনকোড), উদাহরণস্বরূপ1 মিনিমাইজারের পর্যাপ্ত পরিমাণে)।
- ট্রায়াল এবং ত্রুটি (অবশ্যই অবশ্যই আমি বোঝাতে চাইছি একটি সঠিক লাইন অনুসন্ধান যেমন আরমিওজোর মতো)।
যদি আপনি লেখেন যেমন আপনার দ্বিতীয় ডেরিভেটিভসের অ্যাক্সেস নেই এবং মান্য কাজটি মূল্যায়ন করা ব্যয়বহুল, আপনার একমাত্র আশা আপস করা: একটি ভাল প্রার্থীর পদক্ষেপের দৈর্ঘ্য পেতে পর্যাপ্ত আনুমানিক দ্বিতীয়-আদেশের তথ্য ব্যবহার করুন যেমন একটি লাইন অনুসন্ধান শুধুমাত্র প্রয়োজন O(1) মূল্যায়ন (যেমন, আপনার গ্রেডিয়েন্টটি মূল্যায়নের জন্য আপনার প্রয়োজন পরিশ্রমের সর্বাধিক একটি (ছোট) ধ্রুবক)
একটি সম্ভাবনা হ'ল বার্জিলাই - বোরউইন ধাপ দৈর্ঘ্য (দেখুন, উদাহরণস্বরূপ, ফ্ল্যাচার: বার্জিলাই-বোরওইন পদ্ধতিতে applications অ্যাপ্লিকেশনগুলির সাহায্যে অপ্টিমাইজেশন এবং নিয়ন্ত্রণ, ২৩৫-২66, অ্যাপ্লিকেশন । পদক্ষেপের আকারের অনুমানের জন্য অনুসন্ধানের দিক বরাবর বক্রতার সীমাবদ্ধ পার্থক্য ব্যবহার করার ধারণা। বিশেষত, চয়ন করুনα0>0 নির্বিচারে, সেট g0:=∇f(x0) এবং তারপর জন্য k=0,...:
- সেট sk=−α−1kgk এবং xk+1=xk+sk
- মূল্যনির্ধারণ gk+1=∇f(xk+1) এবং সেট yk=gk+1−gk
- সেট αk+1=(yk)Tyk(yk)Tsk
এই পছন্দটি চতুর্ভুজ ফাংশনের জন্য (খুব দ্রুত বাস্তবে) রূপান্তর করতে দেখানো যেতে পারে, তবে রূপান্তরটি একঘেয়ে নয় (অর্থাত, ফাংশন মান)f(xk+1) এর চেয়ে বড় হতে পারে f(xk), তবে কেবল একবারে; ফ্ল্যাচারের কাগজে 10 পৃষ্ঠায় প্লটটি দেখুন)। চতুর্ভুজবিহীন ক্রিয়াকলাপগুলির জন্য, আপনাকে এটি একটি লাইন অনুসন্ধানের সাথে একত্রিত করতে হবে, যা অ-একঘেয়েমিটি মোকাবেলার জন্য সংশোধন করা দরকার। একটি সম্ভাবনা বেছে নেওয়া হয়σk∈(0,α−1k) (যেমন, ব্যাকট্র্যাকিংয়ের মাধ্যমে) যেমন)
f(xk−σkgk)≤maxmax(k−M,1)≤j≤kf(xj)−γσk(gk)Tgk,
যেখানে 0 হল টিপিক্যাল আর্মিজো প্যারামিটার এবং মনোটোনসিটির ডিগ্রি নিয়ন্ত্রণ করে (যেমন, )। এখানে একটি বৈকল্পিক রয়েছে যা ফাংশন মানগুলির পরিবর্তে গ্রেডিয়েন্ট মান ব্যবহার করে, তবে আপনার ক্ষেত্রে গ্রেডিয়েন্টটি ফাংশনের চেয়ে মূল্যায়ন করা আরও ব্যয়বহুল, যাতে এটি এখানে বোঝা যায় না। (দ্রষ্টব্য: আপনি অবশ্যই বিবি ধাপের দৈর্ঘ্যগুলি অন্ধভাবে গ্রহণ করার চেষ্টা করতে পারেন এবং আপনার ভাগ্যকে বিশ্বাস করতে পারেন, তবে আপনার যদি কোনও ধরণের দৃust়তার প্রয়োজন হয় - যেমন আপনি আপনার মন্তব্যে লিখেছেন - এটি সত্যিই খারাপ ধারণা হবে))
γ∈(0,1)MM=10
বিকল্পের (এবং, আমার মতে, আরও ভাল) পদ্ধতির সন্ধানের দিকের গণনায় ইতিমধ্যে এই সীমাবদ্ধ পার্থক্যের সান্নিধ্য ব্যবহার করা হবে; একে কোয়াটি-নিউটন পদ্ধতি বলা হয় । ধারণাটি হ'ল গ্রেডিয়েন্টের পার্থক্য ব্যবহার করে হেসিয়ান একটি আনুমানিক নির্মাণ করা । উদাহরণস্বরূপ, যদি আপনি গ্রহণ করতে পারে (পরিচয় ম্যাট্রিক্স) এবং জন্য সমাধান
এবং সেট
সঙ্গে উপরে এবং যেমন । (একে ব্রয়ডেন আপডেট বলা হয়∇2f(xk)H0=Idk=0,…
Hksk=−gk,(1)
Hk+1=Hk+(yk−Hksk)T(sk)T(sk)Tsk
ykxk+1=xk+skএবং অনুশীলনে খুব কমই ব্যবহৃত হয়; এর চেয়ে ভাল তবে কিছুটা জটিল আপডেট হ'ল
বিএফজিএস আপডেট , এবং এর জন্য - এবং আরও তথ্য - আমি নোসডাল এবং রাইটের বই
সংখ্যাসূচক অপ্টিমাইজেশান উল্লেখ করি ।) নেতিবাচক দিকটি হ'ল ক) এর জন্য প্রতিটি পদক্ষেপে লিনিয়ার সিস্টেমটি সমাধান করা প্রয়োজন (তবে কেবলমাত্র অজানা আকারের যা আপনার ক্ষেত্রে প্রাথমিক শর্ত, তাই গ্রেডিয়েন্টটি পাওয়ার জন্য পিডিই সমাধান করে প্রচেষ্টাটির প্রাধান্য পাওয়া উচিত; এছাড়াও,
বিপরীত হেসিয়ানের সান্নিধ্যের জন্য আপডেট বিধি রয়েছে , যার জন্য কেবল একটি একক ম্যাট্রিক্সের কম্পিউটিং প্রয়োজন require -ভেক্টর পণ্য) এবং খ) রূপান্তর গ্যারান্টি জন্য আপনার এখনও একটি লাইন অনুসন্ধান প্রয়োজন ...
ভাগ্যক্রমে, এই প্রসঙ্গে একটি বিকল্প পদ্ধতির উপস্থিতি রয়েছে যা প্রতিটি ফাংশন মূল্যায়নের ব্যবহার করে। এই ধারণাটি হ'ল প্রতিসম ও ধনাত্মক সুনির্দিষ্ট (যা বিএফজিএস আপডেটের জন্য গ্যারান্টিযুক্ত), সমাধান কোয়াড্র্যাটিক মডেল কে হ্রাস করার সমতুল্য
একটি বিশ্বাস অঞ্চল পদ্ধতিতে , আপনি অতিরিক্ত সীমাবদ্ধতার সাথে এটি করবেন , যেখানে একটি উপযুক্তভাবে নির্বাচিত বিশ্বাস অঞ্চল ব্যাসার্ধ (যা পদক্ষেপের দৈর্ঘ্যের ভূমিকা পালন করে )। মূল ধারণাটি এখন গণনা করা পদক্ষেপের ভিত্তিতে এই ব্যাসার্ধটিকে অভিযোজিতভাবে বেছে নেওয়া to বিশেষত, আপনি অনুপাত তাকান
Hk(1)
qk(s)=12sTHks+sTgk.
∥s∥≤ΔkΔkσkρk:=f(xk)−f(xk+sk)f(xk)−qk(sk)
function ফাংশন মানের প্রকৃত এবং পূর্বাভাস হ্রাস। যদি খুব ছোট হয় তবে আপনার মডেলটি খারাপ ছিল এবং আপনি ফেলে দিন এবং আবার । যদি কাছাকাছি থাকে তবে আপনার মডেলটি ভাল, এবং আপনি এবং বৃদ্ধি করেন । অন্যথায় আপনি কেবল এবং একা যান। প্রকৃত মিনিমাইজার গনা এর
ρkskΔk+1<Δkρk1xk+1=xk+skΔk+1>Δkxk+1=xk+skΔkskmin∥s∥≤Δkqk(s), সম্পূর্ণ সীমাবদ্ধ অপ্টিমাইজেশান সমস্যা সমাধান না করে এড়াতে বিভিন্ন কৌশল রয়েছে; আমার
প্রিয়টি হ'ল
স্টিহাগের কাটা কাটা সিজি পদ্ধতি । আরও বিশদ জন্য, আমি আবার Nocedal এবং রাইট উল্লেখ।