গ্রেডিয়েন্ট পদ্ধতি সাধারণত ভাল নিখুঁত কাজ চেয়ে কারণ গ্রেডিয়েন্ট সাধারণত বেশি হয় ভালভাবে ছোটো । এটির একটি আকার রয়েছে যা ধারাবাহিকভাবে এবং সহায়কভাবে উদ্দেশ্যমূলক ফাংশনের জ্যামিতিকে প্রতিফলিত করে, উপযুক্ত পদক্ষেপের আকারটি নির্বাচন করা আরও কম পদক্ষেপে সর্বোত্তমটিতে পৌঁছানো সহজ করে তোলে।পি ( এক্স ) লগ পি ( এক্স )logp(x)p(x)logp(x)
আমি কী বলতে চাইছি তা দেখতে, এবং জন্য গ্রেডিয়েন্ট অপ্টিমাইজেশন প্রক্রিয়াটি তুলনা করুন । এ যে কোনো স্থানে , এর গ্রেডিয়েন্ট হয়যদি আমরা এটির দ্বারা গুণ করি তবে আমরা এর মূল বিষয় নয়, উত্সের বৈশ্বিক সর্বোত্তম পেতে প্রয়োজনীয় ধাপের আকারটি পাইf ( x ) = log p ( x ) = - x 2 x f ( x ) f ′ ( x ) = - 2 x । 1 / 2 এক্স এক্স চ ( এক্স ) চ ( এক্স ) এক্সp(x)=exp(−x2)f(x)=logp(x)=−x2xf(x)
f′(x)=−2x.
1/2xহয়। এর অর্থ হল একটি ভাল ধাপের আকার (বা এমএল জার্গনে "শেখার হার") পেতে আমাদের খুব বেশি পরিশ্রম করতে হবে না। আমাদের প্রাথমিক পয়েন্টটি যেখানেই হোক না কেন, আমরা কেবলমাত্র আমাদের ধাপটিকে অর্ধেক গ্রেডিয়েন্টে সেট করেছিলাম এবং আমরা এক ধাপে উত্সতে আসব। এবং যদি আমরা প্রয়োজনীয় ফ্যাক্টরটি না জানি তবে আমরা কেবল 1 টির কাছাকাছি একটি পদক্ষেপের আকার বাছাই করতে পারি, কিছুটা লাইন অনুসন্ধান করতে পারি এবং আমরা খুব দ্রুত একটি দুর্দান্ত ধাপের আকার খুঁজে পাব, এটি যে যেখানেই ভাল কাজ করে না কেন one হয় এই সম্পত্তিটি অনুবাদ স্কেলিং এবং স্কেলিংয়ের পক্ষে শক্ত । স্কেলিং ফলে সর্বোত্তম পদক্ষেপের স্কেলিং 1/2 থেকে পৃথক হয়ে উঠবে, কমপক্ষে পদক্ষেপের স্কেলিং সমান হবে যাই হোক না কেন , কেবলমাত্র কার্যকর গ্রেডিয়েন্ট-ভিত্তিক অপ্টিমাইজেশন পাওয়ার জন্য আমাদের কেবল একটি প্যারামিটার খুঁজতে হবে পরিকল্পনা.
xf(x)f(x)x
বিপরীতে, এর গ্রেডিয়েন্টের অপ্টিমাইজেশনের জন্য খুব কম গ্লোবাল বৈশিষ্ট্য রয়েছে। আমাদের কাছেএটি পুরোপুরি সুন্দর, ভাল আচরণের গ্রেডিয়েন্ট কে একটি গুণক দিয়ে গুণিত করে যা বাড়ার সাথে সাথে দ্রুত (দ্রুততর) ক্ষয় হয় । এ , আমরা ইতিমধ্যেই আছে , তাই গ্রেডিয়েন্ট ভেক্টর বরাবর একটি পদক্ষেপ সম্পর্কে বার খুবই ছোট। সর্বোত্তমটির দিকে যুক্তিসঙ্গত পদক্ষেপের আকার পেতে, আমাদের সেই প্রতিদান দিয়ে গ্রেডিয়েন্টটি স্কেল করতে হবে, এক বিরাট ধ্রুবকp(x)
p′(x)=f′(x)p(x)=−2xexp(−x2).
−2xexp(−x2)xx=5exp(−x2)=1.4⋅10−1110−11 পি ′ (এক্স) পি ′ (এক্স)∼1011। এই ধরনের খারাপভাবে স্কেল করা গ্রেডিয়েন্টটি অপ্টিমাইজেশনের উদ্দেশ্যে অপদার্থের চেয়েও খারাপ বিপরীতে স্কেলিং করে আমাদের পদক্ষেপটি স্থির করার চেয়ে চলাচলের দিকের একক পদক্ষেপের চেষ্টা করাই ভাল ! (অনেকগুলি ভেরিয়েবলে কিছুটা দরকারী হয়ে যায় কারণ আমরা কমপক্ষে গ্রেডিয়েন্টের কাছ থেকে দিকনির্দেশক তথ্য পাই, তবে স্কেলিংয়ের সমস্যাটি রয়ে গেছে))
p′(x)p′(x)
সাধারণভাবে কোনও গ্যারান্টি নেই যে এই খেলনা উদাহরণ হিসাবে দুর্দান্ত গ্রেডিয়েন্ট স্কেলিং বৈশিষ্ট্য থাকবে, বিশেষত যখন আমাদের একাধিক পরিবর্তনশীল থাকে। তবে কোনও অনানুষ্ঠানিক সমস্যার জন্য, হতে চলেছে, চেয়ে ভাল উপায় । এটি হ'ল কারণ সম্ভাবনাগুলি শর্তাদির একটি বৃহত্তর পণ্য এবং লগ সেই পণ্যটিকে একটি যোগফলে পরিণত করে, যেমনটি বেশ কয়েকটি অন্যান্য উত্তরে উল্লিখিত হয়েছে। প্রদত্ত সম্ভাবনার শর্তগুলি একটি অপ্টিমাইজেশন অবস্থান থেকে ভাল আচরণ করা হয়, তাদের লগটি সাধারণত ভাল আচরণ করা হয়, এবং ভাল আচরণিত ফাংশনগুলির যোগফলটি ভাল আচরণ করা হয়। দ্বারা ভালভাবে ভদ্র আমি বলতে চাচ্ছিlogp(x)logp(x)p(x)f′′(x)খুব বেশি বা খুব দ্রুত পরিবর্তন হয় না, যা প্রায় চতুর্ভুজ ফাংশনের দিকে পরিচালিত করে যা গ্রেডিয়েন্ট পদ্ধতি দ্বারা অনুকূলিতকরণ করা সহজ। একটি ডেরিভেটিভের যোগফলটি ডেরিভেটিভের অর্ডার যাই হোক না কেন, এটি যোগফলের ডেরিভেটিভ, এটি নিশ্চিত করতে সহায়তা করে যে যোগ শর্তগুলির বৃহত স্তূপের একটি খুব যুক্তিসঙ্গত দ্বিতীয় ডেরিভেটিভ রয়েছে!