নিউরাল নেটওয়ার্ক প্রশিক্ষণ দেওয়ার সময় প্রশিক্ষণ / পরীক্ষার ত্রুটিগুলিতে হঠাৎ হ্রাস হওয়ার কারণ কী?


18

নিউরাল নেটওয়ার্ক প্রশিক্ষণ চলাকালীন আমি পরীক্ষার / প্রশিক্ষণের ত্রুটির প্লটগুলি হঠাৎ কয়েকবার কিছু সময় নেমে এসেছি এবং আমি আশ্চর্য হয়েছি যে কী কারণে এই পারফরম্যান্স লাফিয়ে উঠেছে:

রেজনেট পরীক্ষার ত্রুটি

এই চিত্রটি কাইমিং হি গিথুব থেকে নেওয়া হয়েছে, তবে একই রকম প্লটগুলি অনেকগুলি কাগজপত্রে প্রদর্শিত হয়।


সম্পর্কিত একটি কাগজ: স্মিথ এট আল। 2018 শিক্ষার হার ক্ষয় করবেন না, ব্যাচের আকার বাড়ান, ওপেনরভিউ.net
অ্যামিবা

উত্তর:


7

তারা শিক্ষার হার পরিবর্তন করেছে। নোটটি হুবহু 30 এবং 60 যুগের মধ্যে রয়েছে, স্পষ্টতই কেউ ম্যানুয়ালি সেট করেছেন।


অধ্যায় 3.4, এটি ব্যাখ্যা করেছেন যে শেখার হার 10 দ্বারা বিভক্ত হয় যখন ত্রুটি মালভুমি
xiawi

2

"অপ্টিমাইজেশান ল্যান্ডস্কেপ" চিন্তা করুন। উদাহরণস্বরূপ, যদি আপনার কেবল দুটি ওজনযুক্ত নেটওয়ার্ক থাকে তবে আপনি এই দুটি ওজনের সমস্ত সংমিশ্রণ একটি পৃষ্ঠের উপরে ছুঁড়ে ফেলতে পারেন, যেখানে প্রতিটি বিন্দুতে উচ্চতা যদি আপনার ব্যয় ফাংশনটি প্রদান করে ত্রুটির পরিমাণ উপস্থাপন করে আপনি যদি এটি ব্যবহার করেন (x, y ) আপনার দুটি ওজন হিসাবে সমন্বয়। আপনি ত্রুটির সর্বনিম্ন স্তর পেতে এই পৃষ্ঠের সর্বনিম্ন পয়েন্টে যাওয়ার চেষ্টা করছেন।
কখনও কখনও সমস্যাটি হ'ল পৃষ্ঠটি বেশ সুন্দর হয়ে উঠতে পারে, বিশেষত নেটওয়ার্কগুলিতে মাত্র দু'টির পরিবর্তে কয়েক মিলিয়ন প্যারামিটার। আপনি জিন পয়েন্টগুলিতে আটকে যেতে পারেন যেখানে অগ্রগতি কমিয়ে আনা হয় এবং তারপরে হঠাৎ করে নীচে পাহাড়ে গুলি মারতে হয়।
এটি কল্পনা করতে সহায়তা করার জন্য এখানে একটি অ্যানিমেশন রয়েছে আপনি দেখতে পাচ্ছেন যে আরও বেসিক গ্রেডিয়েন্ট বংশদ্ভুত অ্যালগরিদমগুলি এই অবস্থানগুলিতে আরও সহজে আটকে যায় easier
এখানে চিত্র বর্ণনা লিখুন

এটির জন্য অন্যান্য কারণও থাকতে পারে, তবে এটিই আপনি সবচেয়ে বেশি শুনে থাকেন। এটি সম্ভব হতে পারে যে কোনও নেটওয়ার্কে সংশ্লেষিত ক্রিয়াকলাপগুলি পেতে (বা রেলুর ক্ষেত্রে, একটি ইউনিট যা কেবলমাত্র খুব অল্প সংখ্যক প্রশিক্ষণ ইনপুট দ্বারা সক্রিয় করা হচ্ছে) পেতে পারে, এবং একটি ইউনিট যখন স্যাচুরেশন থেকে বেরিয়ে যায় এটি হতে পারে possible একটি শৃঙ্খলা প্রতিক্রিয়া সেট করে যা বাকী স্যাচুরেশন থেকে সরে যায় এবং ওজন হঠাৎ গ্রেডিয়েন্ট প্রবাহকে বাড়িয়ে তোলে? আমি এর মতো কিছু দেখিনি তবে কারও যুক্ত করার অন্য কোনও কারণ থাকলে আমি আগ্রহী হব।


1
-1। এটি প্রশ্নের উত্তর দেয় না বা কমপক্ষে এটি কীভাবে হয় তা পরিষ্কার নয় এবং আপনি যা লিখেছেন তা প্রাসঙ্গিক। শিক্ষার হার হ্রাস কেন একটি জিন পয়েন্ট থেকে বেরিয়ে আসবে?
অ্যামিবা

এটি এমনকি স্পষ্ট নয় যে অ্যানিমেশনটি যাইহোক সঠিক হয়, যেহেতু এসজিডি - সংজ্ঞা অনুসারে - প্রতিটি পুনরাবৃত্তির সাথে একটি পৃথক অপ্টিমাইজেশনের পৃষ্ঠ দেখায়। এই গ্রাফিকটিতে, অপ্টিমাইজেশনের পৃষ্ঠ স্থির করা হয়েছে, সুতরাং কীভাবে এখানে এসজিডি চিত্রিত করা সম্ভব তা আমার কাছে পরিষ্কার নয়। এসজিডি "ডট" পুরো ব্যাচের গ্রেডিয়েন্ট বংশোদ্ভুতের মতো আচরণ করে, যেখানে পুরো প্রশিক্ষণ প্রক্রিয়াটির উপরে অপ্টিমাইজেশনের পৃষ্ঠটি স্থির করা হয়।
জোশ
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.