নিউরাল নেটওয়ার্ক: ওজন পরিবর্তনের গতি এবং ওজন ক্ষয়


41

মোমেন্টাম একটানা পুনরাবৃত্তির সাথে ওজন পরিবর্তনের ওঠানামা হ্রাস করতে ব্যবহৃত হয়:α

যেখানে(W)ত্রুটি ফাংশন হয়,W- ওজন ভেক্টর,η- শেখার হার।

Δωi(t+1)=ηEwi+αΔωi(t),
E(w)wη

ওজন ক্ষয় ওজন পরিবর্তনের দণ্ড দেয়:λ

Δωi(t+1)=ηEwiληωi

প্রশ্নটি হ'ল যদি পিছনের প্রচারের সময় উভয় কৌশলকে একত্রিত করার জন্য এটি বোধগম্য হয় এবং এর কী প্রভাব ফেলবে?

Δωi(t+1)=ηEwi+αΔωi(t)ληωi

1
Youi (t + 1) = ωi - ηi (t + 1) = ωi - η∂E / ∂wi + αΔωi (t) এর পরিবর্তে youi (t + 1) = ωi - বলতে চাইছেন?
হাকুনামাতাটা

উত্তর:


48

হ্যাঁ, দুটি কৌশলই ব্যবহার করা খুব সাধারণ। তারা বিভিন্ন সমস্যা সমাধান করে এবং একসাথে ভালভাবে কাজ করতে পারে।

এটির বিষয়ে চিন্তা করার এক উপায় হ'ল ওজন ক্ষয়টি অনুকূলিত হয়ে যাওয়া ফাংশনটিকে পরিবর্তিত করে , যখন গতিবেগ আপনি সর্বোত্তম পথে নিয়ে যাওয়ার পথ পরিবর্তন করে

ওজন ক্ষয়, আপনার গুণাগুণকে শূন্যের দিকে সঙ্কুচিত করে নিশ্চিত করে যে আপনি ছোট-মাত্রার পরামিতি সহ একটি স্থানীয় সর্বোত্তম খুঁজে পাবেন। অতিরিক্ত চাপ এড়ানোর জন্য এটি সাধারণত গুরুত্বপূর্ণ (যদিও ওজনের অন্যান্য ধরণের বাধাও কাজ করতে পারে)। পার্শ্ব সুবিধা হিসাবে, এটি উদ্দেশ্যমূলক ফাংশনটিকে আরও উত্তল করে মডেলটিকে অনুকূলকরণ করতে আরও সহজ করতে পারে।

আপনার একবার উদ্দেশ্যমূলক ফাংশন হয়ে গেলে, আপনাকে কীভাবে এটির চারপাশে ঘোরাতে হবে তা সিদ্ধান্ত নিতে হবে। গ্রেডিয়েন্টের উপরে খাড়া বংশদ্ভুতটি সহজতম পদ্ধতি, তবে আপনি ঠিক বলেছেন যে ওঠানামা একটি বড় সমস্যা হতে পারে। গতি যুক্ত করা সমস্যাটি সমাধান করতে সহায়তা করে। আপনি যদি ব্যাচের আপডেট নিয়ে কাজ করছেন (যা সাধারণত নিউরাল নেটওয়ার্কগুলির সাথে খারাপ ধারণা হয়) নিউটন-ধরণের পদক্ষেপগুলি অন্য বিকল্প। নতুন "হট" পন্থাগুলি নেস্টারভের ত্বরণী গ্রেডিয়েন্ট এবং তথাকথিত "হেসিয়ান মুক্ত" অপ্টিমাইজেশানের উপর ভিত্তি করে।

তবে আপনি যে আপডেট আপডেটগুলি ব্যবহার করেন তা নির্বিশেষে (গতিবেগ, নিউটন ইত্যাদি), আপনি এখনও একই উদ্দেশ্যমূলক ফাংশন নিয়ে কাজ করছেন যা আপনার ত্রুটি ফাংশন (যেমন স্কোয়ার ত্রুটি) এবং অন্যান্য সীমাবদ্ধতা (যেমন ওজন ক্ষয়) দ্বারা নির্ধারিত হয় । এর মধ্যে কোনটি ব্যবহার করবেন তা সিদ্ধান্ত নেওয়ার সময় প্রধান প্রশ্নটি হ'ল আপনি কত দ্রুত ওজনের একটি ভাল সেট পাবেন।


'এটি উদ্দেশ্যকে কার্যকরীভাবে আরও উত্তল করে মডেলটিকে আরও অনুকূল করতে আরও সহজ করে তুলতে পারে' - আপনি কীভাবে ছোট ওজনকে এটি সম্ভব করে তোলে তা ব্যাখ্যা করতে পারেন?
অ্যালেক্স

sin(x)ax2a

সুন্দর উত্তর, ধন্যবাদ। অ্যাডাম অপটিমাইজার সম্পর্কে কি? ওজন ক্ষয় এবং গতির সংমিশ্রণটি কি এটি আরও ভাল সম্পাদন করে?
এ। পিরো

আদম গতির মতো, তবে ওজন ক্ষয়ের মতো নয়; আপনি কীভাবে উদ্দেশ্যমূলক ফাংশন নেভিগেট করবেন তা এটি প্রভাবিত করে, তবে উদ্দেশ্যগত কার্য নিজেই নয়।
ডেভিড জে হ্যারিস
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.