স্থানীয় ন্যূনতমের সমস্যাটিকে কীভাবে স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত করা যায়?


19

আমি জানি যে স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত আচরণ এলোমেলো আচরণ করে তবে কেন তা আমি জানি না।
এই সম্পর্কে কোন ব্যাখ্যা আছে?


10
আপনার প্রশ্নের সাথে আপনার শিরোনামের কী সম্পর্ক আছে?
নিল জি

উত্তর:


22

স্টোকাস্টিক গ্রেডিয়েন্ট (এসজি) অ্যালগরিদম সিমুলেটেড অ্যানিলিং (এসএ) অ্যালগরিদমের মতো আচরণ করে, যেখানে এসজিটির শেখার হার এসএর তাপমাত্রার সাথে সম্পর্কিত। এসজি দ্বারা প্রবর্তিত এলোমেলো বা শব্দটি স্থানীয় মিনিমা থেকে আরও ভাল ন্যূনতম পৌঁছাতে সহায়তা করে। অবশ্যই, আপনি শেখার হার কত দ্রুত হ্রাস করবেন তার উপর নির্ভর করে। নিউরাল নেটওয়ার্কস (পিডিএফ) এর স্টোকাস্টিক গ্রেডিয়েন্ট লার্নিংয়ের বিভাগ 4.2 পড়ুন , যেখানে এটি আরও বিস্তারিতভাবে ব্যাখ্যা করা হয়েছে।


4
বিভাগটি ৪.১ হিসাবে ভালভাবে পরীক্ষা করবেন না, যেখানে দ্বিতীয় উপপাদ্যটি ননকনভেক্স ফাংশনগুলির সীমিত ক্ষেত্রে রয়েছে, এটি বলে যে এটি কেবলমাত্র (অসীম নমুনাগুলি সহ) গ্রেডিয়েন্ট ০ সহ কিছু পয়েন্টে রূপান্তর করে It এটি বৈশ্বিক ন্যূনতম হতে পারে না এমনকি এটি সর্বোচ্চও হতে পারে । বিতরণ শিক্ষার মতো আরও ব্যবহারিক কারণে এসজিডি আরও আকর্ষণীয়, নিশ্চিত নয় যে এটি স্থানীয় ন্যূনতম "এড়াতে" পারবে।
নীল

2

নিয়মিত গ্রেডিয়েন্ট বংশোদ্ভূত (ব্যাচের গ্রেডিয়েন্ট বংশোদ্ভূত) পুরো নমুনার বিরোধিতা হিসাবে স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত প্রতিটি পর্যবেক্ষণের জন্য পরামিতিগুলি অনুমান করা হয়। এটি এটিকে এলোমেলো করে দেয়। স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত পথটি আরও অনেক জায়গায় ঘুরে বেড়ায় এবং এভাবে স্থানীয় সর্বনিম্নের "লাফিয়ে লাফিয়ে" যাওয়ার সম্ভাবনা বেশি থাকে এবং বিশ্বব্যাপী সর্বনিম্ন (নোট *) খুঁজে পাওয়া যায়। তবে স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত লোকাল সর্বনিম্নে আটকে যেতে পারে।

দ্রষ্টব্য: শিক্ষার হারকে অবিচ্ছিন্ন রাখা সাধারণ, এই ক্ষেত্রে স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত রূপান্তরিত হয় না; এটি ঠিক একই পয়েন্টের চারপাশে ঘোরাফেরা করে। তবে, যদি শিক্ষার হার সময়ের সাথে সাথে হ্রাস পায়, বলুন এটি বিপরীতভাবে পুনরাবৃত্তির সংখ্যার সাথে সম্পর্কিত তবে স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত হবে conver


এটি সত্য নয় যে স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূতটি সত্যই একত্রিত হয় না এবং একটি নির্দিষ্ট পয়েন্টের আশেপাশে কেবল বিস্ময় প্রকাশ করে। যদি শিক্ষার হারকে অবিচলিত রাখা হয় তবে তা হবে। তবে, শিক্ষার হারগুলি শূন্যের দিকে ঝুঁকছে কারণ এইভাবে, যখন অ্যালগরিদমটি উত্তল কার্যের নূন্যতমের কাছাকাছি থাকে, তখন এটি দোলনা থামিয়ে দেয় এবং রূপান্তর করে। স্টোকাস্টিক গ্রেডিয়েন্টের অভিব্যক্তির প্রমাণের মূল কীটি শিক্ষার হারের সিরিজের উপর চাপানো শর্তগুলি। রবিনস এবং মনোর মূল কাগজের সমীকরণ (6) এবং (27) দেখুন।
ক্লারা

2

পূর্ববর্তী উত্তরে যেমন এটি ইতিমধ্যে উল্লিখিত ছিল, আপনি প্রতিটি নমুনাকে পুনরুক্তিভাবে মূল্যায়ন করছেন বলে স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত একটি অনেক গোলমাল ত্রুটির পৃষ্ঠ রয়েছে। আপনি প্রতিটি পর্বে বৈঠকের গ্রেডিয়েন্ট বংশোদ্ভূত গ্লোবাল সর্বনিম্নের দিকে পদক্ষেপ নিচ্ছেন (প্রশিক্ষণের সেট পেরিয়ে যান), আপনার স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত গ্রেডিয়েন্টের স্বতন্ত্র পদক্ষেপগুলি সর্বদা মূল্যায়িত নমুনার উপর নির্ভর করে বৈশ্বিক সর্বনিম্নের দিকে নির্দেশ করা উচিত নয় point

দ্বি-মাত্রিক উদাহরণ ব্যবহার করে এটি কল্পনা করতে এখানে অ্যান্ড্রু এনগের মেশিন লার্নিং ক্লাসের কিছু চিত্র এবং অঙ্কন রয়েছে।

প্রথম গ্রেডিয়েন্ট বংশোদ্ভূত:

এখানে চিত্র বর্ণনা লিখুন

দ্বিতীয়ত, স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত:

এখানে চিত্র বর্ণনা লিখুন

নীচের চিত্রের লাল বৃত্তটি ব্যাখ্যা করবে যে স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত আপনি সর্বনিম্ন ন্যূনতম আশেপাশের অঞ্চলে কোথাও "আপডেট করতে" থাকবে যদি আপনি ধ্রুবক শেখার হার ব্যবহার করেন।

সুতরাং, যদি আপনি স্টোকাস্টিক গ্রেডিয়েন্ট বংশদ্ভুত ব্যবহার করেন তবে এখানে কিছু ব্যবহারিক টিপস রয়েছে:

1) প্রতিটি যুগের আগে প্রশিক্ষণের সেটটি বদল করুন (বা "স্ট্যান্ডার্ড" ভেরিয়েন্টে পুনরাবৃত্তি)

2) বৈশ্বিক সর্বনিম্নের নিকটে "অ্যানিয়াল" করতে একটি অভিযোজিত শিক্ষার হার ব্যবহার করুন


আপনি কেন প্রতিটি যুগের আগে প্রশিক্ষণ সেটটি বদল করতে চান? এসজিডির অ্যালগরিদম এলোমেলোভাবে প্রশিক্ষণের উদাহরণগুলি তুলে ধরে।
ভ্লাদিস্লাভস ডভগ্লেলেকস

এলোমেলোভাবে প্রশিক্ষণ নমুনাগুলি বাছাই করার মূলত এটি একটি পরিবর্তন। আমার বাস্তবায়নে, আমি সাধারণত প্রতিটি পর্বের আগে প্রশিক্ষণ সেটটি forবদলে ফেলি এবং তারপরেই এলোমেলো সেটটি বন্ধ করে

2
এইচএম, উইকিপিডিয়ায়, এসজিডি অ্যালগরিদমকে "প্রতিস্থাপন ছাড়াই" হিসাবে বর্ণনা করা হয়েছে, তবে বোটো এটির মতো বর্ণনা করেছেন যেমনটি আপনি করেছেন (বোটোউ, লোওন। "স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত বড় মাপের মেশিন লার্নিং।" COMPSTAT'2010 এর কার্যক্রিয়া। ফিজিকা-ভার্লাগ এইচডি, 2010. 177-186 -1

4
@ এক্সিয়ন এই কাগজটি দেখুন , যা যুক্তিযুক্ত যে প্রতিস্থাপন ছাড়া নমুনা ভাল। আমার বোধগম্যতা হল প্রতিস্থাপন ব্যতীত বুদ্ধিমানভাবে উচ্চতর হতে থাকে তবে তাত্ত্বিক বিশ্লেষণগুলি মোটামুটি সম্প্রতি পাওয়া যায় নি until
ডগল

1
@xeon আমি কেবলমাত্র অ্যান্ড্রু এনগির কোর্স থেকে আমার পিডিএফ স্লাইডগুলি দেখেছি এবং মনে হচ্ছে তিনি এটিকে বোকৌর মতো নয় উইকিপিডিয়ায় ("বিনা প্রতিস্থাপন" বৈকল্পিক) হিসাবে বর্ণনা করেছেন। আমি এখানে
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.