নিউরাল নেটগুলিতে, অন্যান্য মেটাওরিস্টিকের চেয়ে গ্রেডিয়েন্ট পদ্ধতিগুলি ব্যবহার করবেন কেন?


20

গভীর এবং অগভীর নিউরাল নেটওয়ার্কগুলির প্রশিক্ষণে, অন্যান্য আবহাওয়াবিজ্ঞানের বিপরীতে গ্রেডিয়েন্ট পদ্ধতিগুলি (যেমন গ্রেডিয়েন্ট বংশোদ্ভূত নেস্টেরভ, নিউটন-রাফসন) সাধারণত ব্যবহৃত হয় কেন?

মেটাহিউরিস্টিকস দ্বারা আমি বোঝায় যে পদ্ধতিগুলি যেমন সিমুলেটেড অ্যানিলিং, পিঁপড়া কলোনী অপ্টিমাইজেশন ইত্যাদি, যা স্থানীয় মিনিমে আটকে না যাওয়ার জন্য তৈরি করা হয়েছিল।


উত্তর:


13

@ ডিকরান মার্সুপিয়ালের উত্তর বাড়ানো হচ্ছে ....

এনওয়াইউতে ইয়ান লেকান গ্রুপে আন্না চোরোমান্সকা এবং তার সহকর্মীরা, তাদের 2014 এআইএসটিএটিএস পেপারে "মাল্টিলেয়ার নেটস এর লস সারফেস" এ এটি সম্বোধন করেছেন । কিছু পরীক্ষার পাশাপাশি এলোমেলো ম্যাট্রিক্স তত্ত্ব ব্যবহার করে তারা যুক্তি দেয় যে:

  • বড় আকারের নেটওয়ার্কগুলির জন্য, বেশিরভাগ স্থানীয় মিনিমা সমতুল্য এবং পরীক্ষার সেটটিতে অনুরূপ পারফরম্যান্স দেয়।

  • একটি "খারাপ" (উচ্চ মান) স্থানীয় ন্যূনতম সন্ধানের সম্ভাবনা ছোট আকারের নেটওয়ার্কগুলির জন্য শূন্য নয় এবং নেটওয়ার্ক আকারের সাথে দ্রুত হ্রাস পায়।

  • প্রশিক্ষণ সংস্থায় গ্লোবাল ন্যূনতম সন্ধানের জন্য সংগ্রাম (অনেকগুলি ভাল স্থানীয় লোকের বিপরীতে) অনুশীলনে কার্যকর নয় এবং অত্যধিক মানসিক চাপের দিকে নিয়ে যেতে পারে।

[কাগজের ২ পৃষ্ঠা থেকে]

এই দৃষ্টিতে, বিশ্বব্যাপী সর্বনিম্ন সন্ধানের জন্য ভারী-ওজন পদ্ধতির মোতায়েন করার কোনও দুর্দান্ত কারণ নেই। নতুন নেটওয়ার্ক টোপোলজিস, বৈশিষ্ট্য, ডেটা সেট ইত্যাদির চেষ্টা করে সেই সময়টি আরও ভালভাবে ব্যয় করা হবে

এতে বলা হয়েছে, প্রচুর লোক এসজিডি বৃদ্ধি বা প্রতিস্থাপনের বিষয়ে চিন্তাভাবনা করেছে। মোটামুটি ছোট নেটওয়ার্কগুলির জন্য (সমসাময়িক মান অনুসারে), এই উন্নত রূপান্তরগুলি মাভ্রভোনিওটিস এবং ইয়াং ( ২০১ 2016) দেখায় যে পিঁপড়া কলোনী অপ্টিমাইজেশন + ব্যাকপ্রপ বেশ কয়েকটি বেঞ্চমার্ক ডেটা সেটগুলিতে অবিস্মরণিত ব্যাকপ্রপকে প্রহার করে (যদিও খুব বেশি নয়)। রেরে এল আল। (2015) একটি সিএনএন প্রশিক্ষণের জন্য সিমুলেটেড অ্যানেলিং ব্যবহার করুন এবং এটি প্রাথমিকভাবে বৈধতা সেটটিতে আরও ভাল সম্পাদন করে তা সন্ধান করুন। 10 যুগের পরে, তবে, পারফরম্যান্সের মধ্যে কেবলমাত্র খুব ছোট (এবং পরীক্ষিত নয়-তাত্পর্যপূর্ণ) পার্থক্য রয়ে গেছে। দ্রুত অভিযোজন-প্রতি-যুগের সুবিধাটি যুগের নাটকীয়ভাবে বৃহত পরিমাণে গণনার সময় দ্বারা অফসেট হয়, সুতরাং এটি সিমুলেটেড অ্যানিলিংয়ের পক্ষে সুস্পষ্ট জয় নয়।

সম্ভব হয় যে এই হিরিস্টিকস নেটওয়ার্কটি আরম্ভ করার জন্য আরও ভাল কাজ করে এবং একবার এটি সঠিক পথে দেখানো হয়, যে কোনও অপ্টিমাইজার তা করবে। সটসকেভার এবং অন্যান্য। (2013) জিফ হিন্টনের গ্রুপ থেকে তাদের 2013 আইসিএমএল গবেষণাপত্রে এরকম কিছু যুক্তি রয়েছে ।


17

স্থানীয় মিনিমা প্রায়শই সুপারিশ করা স্নায়ু জাল নিয়ে আসলে তেমন সমস্যা হয় না। স্থানীয় কিছু মিনিমা নেটওয়ার্কের প্রতিসাম্যের কারণে রয়েছে (যেমন আপনি লুকানো নিউরনগুলিকে ছাড়িয়ে ফাংশনটি ছেড়ে দিতে পারেন)নেটওয়ার্ক অপরিবর্তিত। প্রয়োজনীয় সমস্ত কিছুই হ'ল গ্লোবাল মিনিমা না করে একটি ভাল স্থানীয় মিনিমা খুঁজে পাওয়া। যেহেতু আক্রমণাত্মকভাবে এটি একটি নমনীয় নেটওয়ার্কের মতো খুব নমনীয় মডেলটিকে অনুকূল করে তুলবে তা সম্ভবত উপাত্তকে ফিট করার জন্য একটি রেসিপি হতে পারে, সুতরাং প্রশিক্ষণের মানদণ্ডের গ্লোবাল মিনিমা সন্ধান করার জন্য সিমুলেটেড অ্যানেলিং ব্যবহার করা খারাপের সাথে নিউরাল নেটওয়ার্ক দেওয়ার সম্ভাবনা রয়েছে গ্রেডিয়েন্ট বংশোদ্ভূত দ্বারা প্রশিক্ষিত একের চেয়ে সাধারণীকরণের কর্মক্ষমতা যা স্থানীয় মিনিমে শেষ হয়। যদি এই হিউরিস্টিক অপ্টিমাইজেশন পদ্ধতিগুলি ব্যবহার করা হয়, তবে আমি মডেলের জটিলতা সীমাবদ্ধ করার জন্য একটি নিয়মিত পদসহ পরামর্শ দেব।

... বা বিকল্প হিসাবে যেমন একটি কার্নেল পদ্ধতি বা একটি রেডিয়াল ভিত্তিক ফাংশন মডেল ব্যবহার করুন, এতে কম সমস্যা হওয়ার সম্ভাবনা রয়েছে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.