নিউরাল নেট ওজন ক্ষয় এবং শেখার হারের মধ্যে পার্থক্য


উত্তর:


161

লার্নিং রেট এমন একটি প্যারামিটার যা নির্ধারণ করে যে কোনও আপডেটিং পদক্ষেপ ওজনের বর্তমান মানকে কতটা প্রভাবিত করে। ওজন ক্ষয় হ'ল ওজন হালনাগাদের নিয়মের অতিরিক্ত শর্ত যা অন্য কোনও আপডেটের সময়সূচি নির্ধারিত না হলে ওজনকে দ্রুত ক্ষয় শূন্যে পরিণত করে।

সুতরাং আসুন আমরা বলি যে আমাদের একটি ব্যয় বা ত্রুটি ফাংশন যা আমরা হ্রাস করতে চাই। গ্রেডিয়েন্ট বংশদ্ভুত আমাদের বলে ওজন পরিবর্তন করতে W মধ্যে steepest বংশদ্ভুত দিক : W আমিW আমি - η E(w)wE

wiwiηEwi,
ηwi

E~(w)=E(w)+λ2w2λE

wiwiηEwiηλwi.
ηλwi

2
দরকারী ব্যাখ্যার জন্য ধন্যবাদ। একটি প্রশ্ন: "নেট" আর প্যাকেজে নিউরাল নেটওয়ার্কের প্রশিক্ষণে ব্যবহৃত হয় "পচন" নামক প্যারামিটার। ক্ষয় আপনার ল্যাম্বদা বা আপনার এটা * ল্যাম্বদার সাথে মিলে যায় কি জানেন?
Andrea Ianni ௫

3
আমি আরও যোগ করব যে ওজন ক্ষয় হ'ল L2 নিয়মিতকরণের মতো একই জিনিস যাঁরা পরবর্তীকালে পরিচিত।
সের্গেই

2
@ সের্গেই প্লিজ না, এই ভুল তথ্য ছড়িয়ে দেওয়া বন্ধ করুন! ভ্যানিলা এসজিডির খুব বিশেষ ক্ষেত্রে এটিই সত্য। অ্যাডাম কাগজের স্থির ওজন ক্ষয় দেখুন ।
লুকাসবি

স্পষ্ট করার জন্য: লেখার সময়, অ্যাডামের জন্য পাইটর্চ ডকগুলি "ওজন ক্ষয়" ( পিতৃভাষায় "এল 2 পেনাল্টি" নামে অভিহিত) শব্দটি ব্যবহার করেছেন যাতে আমি মনে করি যে এই লেখকরা L2 নিয়ন্ত্রণকে কী বলে। যদি আমি সঠিকভাবে বুঝতে পারি তবে এই উত্তরটি গতি ছাড়াই এসজিডিকে বোঝায়, যেখানে দুটি সমান।
ডিলান এফ

14

@ মিরিগের উত্তর (+1) এর পাশাপাশি স্নায়বিক নেটওয়ার্কগুলির ব্যবহারিক প্রয়োগের জন্য আরও উন্নততর অপ্টিমাইজেশন অ্যালগরিদম যেমন লেভেনবার্গ-মার্কুয়ার্ড (ছোট-মাঝারি আকারের নেটওয়ার্ক) বা স্কেলযুক্ত কনজুগেট গ্রেডিয়েন্ট ডেসেন্ট (মাঝারি-বৃহত) হিসাবে ব্যবহার করা ভাল is নেটওয়ার্কগুলি), যেহেতু এগুলি আরও দ্রুত হবে এবং শেখার হার নির্ধারণ করার দরকার নেই (উভয় অ্যালগরিদমগুলি বক্রতার পাশাপাশি গ্রেডিয়েন্ট ব্যবহার করে শিখার হারকে অভিযোজিত করে)। যে কোনও শালীন নিউরাল নেটওয়ার্ক প্যাকেজ বা লাইব্রেরিতে এই পদ্ধতির একটি প্রয়োগ করা হবে, যে প্যাকেজ সম্ভবত অপ্রচলিত নয়। আমি ম্যাটল্যাবের জন্য নেটল্যাব লাইবারিটি ব্যবহার করি, এটি কিটের একটি দুর্দান্ত অংশ।


আরপ্রপ ভিত্তিক অপ্টিমাইজেশন আলগোস সম্পর্কে কী? তারা কিভাবে স্ট্যাক আপ?
শক্তি

4
আমি মনে করি বেশিরভাগ মানুষ আরআরএসপি + মোমেন্টামের বৈকল্পিক যেমন আরএমএসপ্রপ, অ্যাডগ্রাড, এসজিডি + নেস্টারভ গতিবেগ ব্যবহার করছে think সিএস 231 ক্লাস দেখুন ।
facuq

1
ঠিক আছে, অবশ্যই এটি আপনার আবেদনের উপর নির্ভর করে। তবে এই মুহুর্তে প্রচুর ট্রেন্ডিযুক্ত বড় ডেটাসেট / নেটওয়ার্কগুলির জন্য, আমি মনে করি যে লোকেদের ভালভাবে উপস্থাপিত those অ্যালগরিদমগুলি খুঁজে পাচ্ছেন।
वास्तविक

6
@ ডিক্রানমারসুপিয়াল এটি হতে পারে কারণ আজকাল (আপনার উত্তরের প্রায় পাঁচ বছর পরে) লোকেরা পরিবর্তে আদম ব্যবহার করার প্রবণতা রাখে?
কম্পিউটার

2
প্রকৃতপক্ষে এই উত্তরটি খুব পুরানো। এই অ্যালগরিদমগুলি আজকাল সাধারণ যে মডেলগুলি এবং ডেটাসেটগুলির স্কেলগুলির সাথে ব্যবহারিক নয়, এবং সর্বাধিক ব্যবহৃত প্যাকেজগুলি, যা অবশ্যই অপ্রচলিত নয়, এই অ্যালগরিদমের অভাব রয়েছে।
লুকাসবি

0

আমি সহজ শব্দ:

learning_rate: এটি কোনও নিউরাল নেটওয়ার্ক মডেল কত দ্রুত বা আস্তে আস্তে একটি সমস্যা শিখায় তা নিয়ন্ত্রণ করে।

রেফ: https://machinelearningmastery.com/learning-rate-for-DP-learning-neura-networks/

উইট_ডেকে: ওভার-ফিটিং এড়াতে এটি একটি নিয়মিতকরণ কৌশল।

রেফ: https://metacademy.org/ অনুচ্ছেদ / কনসেপ্টস / ওজন_ডেকা_নুরাল_ নেট ওয়ার্কস

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.