কেন শিখার হার আমার নিউরাল নেটওয়ার্কের ওজনকে স্কাইরকেটে ডেকে আনছে?


9

আমি কিছুটা গবেষণার জন্য সাধারণ নিউরাল নেটওয়ার্কগুলি লিখতে টেনসরফ্লো ব্যবহার করছি এবং প্রশিক্ষণের সময় 'ন্যান' ওজন নিয়ে আমার অনেক সমস্যা হয়েছিল। অপটিমাইজার পরিবর্তন করা, ক্ষতির পরিবর্তন, উপাত্তের আকার ইত্যাদির মতো অনেকগুলি বিভিন্ন সমাধান আমি চেষ্টা করেছি তবে কোনও লাভ হয়নি। অবশেষে, আমি লক্ষ করেছি যে শিক্ষার হারে পরিবর্তন আমার ওজনে অবিশ্বাস্য তফাত করেছে।

.001 (যা আমি ভেবেছিলাম বেশ রক্ষণশীল) এর লার্নিং রেট ব্যবহার করে, ছোট্ট ফাংশনটি প্রকৃতপক্ষে ক্ষয়ক্ষতি বাড়িয়ে তুলবে। এক যুগের পরে লোকসানের সংখ্যা কয়েক হাজার থেকে ট্রিলিয়ন এবং তার পরে অনন্ত ('নান') এ উঠতে পারে। আমি যখন শেখার হারকে 10001 এ নামিয়েছি, তখন সবকিছু ঠিকঠাক কাজ করেছে।

1) কেন একটি মাত্রার একক ক্রমের এমন প্রভাব রয়েছে?

2) কেন ন্যূনতম ফাংশনটি আক্ষরিকভাবে এর কার্যকারিতাটির বিপরীত সম্পাদন করে এবং ক্ষতিটি সর্বাধিকতর করে? আমার কাছে মনে হয় যে এটি হওয়া উচিত নয়, শেখার হার যাই হোক না কেন।


আপনি দয়া করে বলতে পারেন যে আপনি কীভাবে আপনার ওজনকে সূচনা করেছেন?
হিমাংশু রাই

আমি অ্যাডাম সলভার চেষ্টা করার পরামর্শ দিই। এটি ভাল-আচরণযুক্ত এবং আরও ভাল ডিফল্ট বলে মনে হচ্ছে এবং আপনি এটির জন্য ডিফল্ট শিক্ষার হারগুলি ব্যবহার করতে সক্ষম হতে পারেন।
ডিডাব্লু

উত্তর:


9

আপনি ডিপ লার্নিংয়ের অধ্যায় 8 টি সহায়ক বলে মনে করতে পারেন। এটিতে, লেখকেরা নিউরাল নেটওয়ার্ক মডেলগুলির প্রশিক্ষণ নিয়ে আলোচনা করেন। এটি খুব জটিল, তাই আমি আপনার অসুবিধাগুলি নিয়ে অবাক হচ্ছি না।

একটি সম্ভাবনা (ব্যবহারকারীর ত্রুটি ব্যতীত) হ'ল আপনার সমস্যাটি অত্যন্ত অসুস্থ শর্তযুক্ত। গ্রেডিয়েন্ট বংশদ্ভুত পদ্ধতিগুলি কোনও আপডেটের গণনা করার সময় শুধুমাত্র প্রথম ডেরাইভেটিভ (গ্রেডিয়েন্ট) তথ্য ব্যবহার করে। দ্বিতীয় ডেরাইভেটিভ (হেসিয়ান) শর্তযুক্ত অবস্থায় এটি সমস্যা সৃষ্টি করতে পারে।

লেখকদের উদ্ধৃতি:

উত্তল ক্রিয়াদি অনুকূলিতকরণের পরেও কিছু চ্যালেঞ্জ দেখা দেয়। এর মধ্যে সর্বাধিক বিশিষ্ট হেসিয়ান ম্যাট্রিক্স -এর কন্ডিশনার । এটি বেশিরভাগ সংখ্যাসূচক অপটিমাইজেশন, উত্তল বা অন্যথায় খুব সাধারণ সমস্যা এবং বিভাগ 4.3.1-এ আরও বিশদে বর্ণনা করা হয়েছে।এইচ

কন্ডিশনার সমস্যাটি সাধারণত নিউরাল নেটওয়ার্ক প্রশিক্ষণের সমস্যায় উপস্থিত বলে মনে করা হয়। অসুস্থতা কন্ডিশনারটি এসজিডিকে "আটকে" এই অর্থে প্রকাশ করতে পারে যে খুব ছোট পদক্ষেপ এমনকি ব্যয়ের কার্যকারিতা বৃদ্ধি করে। [আমার জোর যুক্ত]

এটি হতে পারে তা দেখানোর জন্য লেখকরা একটি সাধারণ উপকরণ সরবরাহ করেছেন। গ্রেডিয়েন্ট বংশদ্ভুত ব্যবহার করে, ব্যয়ের ক্রিয়াটি (দ্বিতীয় ক্রমে) পরিবর্তন হওয়া উচিত should

ε22টিএইচ-εটি

যেখানে গ্রেডিয়েন্ট, হেসিয়ান এবং হল শিক্ষার হার। স্পষ্টতই, যদি দ্বিতীয় ডেরাইভেটিভগুলি বড় হয়, তবে প্রথম পদটি দ্বিতীয়টি জলাবদ্ধ করতে পারে, এবং ব্যয় কার্যকারিতা বৃদ্ধি পাবে, হ্রাস পাবে না। যেহেতু প্রথম এবং দ্বিতীয় পদগুলি দিয়ে আলাদাভাবে স্কেল করে , এই সমস্যাটি দূর করার একটি উপায় হ'ল হ্রাস করা (যদিও, অবশ্যই এটি খুব ধীরে ধীরে শেখার ফলস্বরূপ )।এইচεεε


2
আমার কাছে মনে হয় যে এই কোরা উত্তরটি হেসিয়ানদের খারাপ অবস্থা সম্পর্কিত যথেষ্ট স্বজ্ঞাত ব্যাখ্যা দেয়।
ওরেেন মিলম্যান

3

1) কেন একটি মাত্রার একক ক্রমের এমন প্রভাব রয়েছে?

2) কেন ন্যূনতম ফাংশনটি আক্ষরিকভাবে এর কার্যকারিতাটির বিপরীত সম্পাদন করে এবং ক্ষতিটি সর্বাধিকতর করে? আমার কাছে মনে হয় যে এটি হওয়া উচিত নয়, শেখার হার যাই হোক না কেন।

দুটি প্রধান কারণ আছে। প্রথমটি আপনি দ্বিতীয় ধাপের চেয়ে প্রথম ধাপে একই ডেটা ব্যবহার করছেন না। যদি প্রথম পদক্ষেপে মডেল সেই মানগুলি শিখে এবং স্থানীয় সর্বনিম্নে পড়ে তবে এটি নতুন মানগুলির জন্য আরও বড় ক্ষতি হওয়ার সম্ভাবনা।

দ্বিতীয় কারণ ব্যয় ফাংশন আকার। আপনি ছোট পদক্ষেপের দ্বারা মানকে ছোট করার চেষ্টা করেন, এই পদক্ষেপগুলির দৈর্ঘ্য দুটি কারণ দ্বারা দেওয়া হয়: গ্রেডিয়েন্ট এবং শেখার হার। ছবিটি আপনার ফাংশনটি x ^ 2 এর মতো। যদি আপনার মানগুলি 0 এর কাছাকাছি হয় তবে গ্রেডিয়েন্টটি যদি আরও এগিয়ে যায় তবে তার চেয়ে ছোট হতে চলেছে তবে যদি আপনার শিক্ষার হারটি আরও বড় হয় তবে 0 এর কাছাকাছি আসার পরিবর্তে আপনি আসলে ত্রুটি বাড়িয়ে দেন কারণ আপনার নতুন পয়েন্ট গ্রেডিং এবং এর উপর ভিত্তি করে শিক্ষার হার আপনার আগের পদক্ষেপের তুলনায় আরও 0 এ। এবং এটি বেশ কয়েকবার ঘটতে পারে।

এই লিঙ্কটিতে একবার দেখুন: http://www.statisticsviews.com/details/feature/5722691/Getting-to-the-Bottom-of-Regression-with- গ্রেডিয়েন্ট- ডিজিটেন্ট এইচটিএমএল

আপনি যদি আলফা ০.০১ এবং আলফা ০.০২ সহ পরিসংখ্যানগুলি দেখেন তবে আপনি দেখতে পাবেন যে প্রথম চিত্রটিতে কীভাবে শিক্ষার হার ছোট এবং তাই গ্রেডিয়েন্ট ন্যূনতমের কাছাকাছি চলেছে তবে দ্বিতীয় ক্ষেত্রে শিক্ষার হার এত বড় যে গ্রেডিয়েন্টটি সরে যায় আরও প্রতিটি পদক্ষেপে।


1
দ্বিতীয় কারণ সম্পর্কে - এই উত্তরটি প্রদর্শন করে (সহজ ফাংশন ব্যবহার করে) যখন গ্রেডিয়েন্ট বংশোদ্ভূততা বিচ্ছিন্ন হতে পারে। সেই উত্তরে পাইথন কোডও রয়েছে যাতে আপনি পরীক্ষা করে দেখতে পারেন যে গ্রেডিয়েন্ট বংশোদ্ভূত বিভিন্ন পরিস্থিতিতে কীভাবে আচরণ করে ..
ওরেন মিলম্যান
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.