সিএনএন কীভাবে বিলীন গ্রেডিয়েন্ট সমস্যা এড়াতে পারে

আমি সংমিশ্রণীয় নিউরাল নেটওয়ার্কগুলি সম্পর্কে অনেকগুলি পড়ছি এবং ভাবছিলাম যে তারা কীভাবে নষ্ট হওয়া গ্রেডিয়েন্ট সমস্যাটিকে এড়িয়ে চলে। আমি জানি গভীর বিশ্বাস নেটওয়ার্কগুলি একক স্তরের অটো-এনকোডার বা অন্যান্য প্রাক-প্রশিক্ষিত অগভীর নেটওয়ার্কগুলি স্ট্যাক করে এবং এই সমস্যাটি এড়াতে পারে তবে সিএনএন-তে কীভাবে এড়ানো যায় তা আমি জানি না।

উইকিপিডিয়া অনুসারে :

"উল্লিখিত" বিলুপ্ত গ্রেডিয়েন্ট সমস্যা সত্ত্বেও, "জিপিইউগুলির উচ্চতর প্রক্রিয়াকরণ শক্তি অনেকগুলি স্তর সহ গভীর ফিডফোরওয়ার্ড নিউরাল নেটওয়ার্কগুলির জন্য প্লেইন ব্যাক-প্রসারণকে সম্ভব করে তোলে।"

আমি বুঝতে পারি না জিপিইউ প্রক্রিয়াকরণ কেন এই সমস্যাটি সরিয়ে দেবে?

— আলি
সূত্র

উইকিপিডিয়া নিবন্ধটি ন্যায্য গ্রেডিয়েন্ট সমস্যা সমাধানে জিপিইউকে কেন সমর্থন করেছিল? গ্রেডিয়েন্টগুলি ছোট হওয়া সত্ত্বেও, জিপিইউগুলি যেহেতু দ্রুত হওয়ায় আমরা এখনও জিপিইউগুলির জন্য প্রচুর পদক্ষেপের মাধ্যমে পরামিতিগুলি উন্নত করতে পারি?

— চার্লি পার্কার 1

যথাযথভাবে। বিলুপ্ত গ্রেডিয়েন্ট সমস্যা হ'ল নিম্ন স্তরের ওজন খুব সামান্য হারে আপডেট হওয়ার কারণ, এবং এভাবে নেটওয়ার্ক প্রশিক্ষণে চিরতরে সময় লাগে। তবে, জিপিইউগুলির মতো আপনি কম সময়ে আরও বেশি গণনা (যেমন ওজনের আরও আপডেট) করতে পারেন, আরও বেশি বেশি জিপিইউ প্রসেসিংয়ের সাথে, বিলুপ্ত গ্রেডিয়েন্ট সমস্যাটি কিছুটা হলেও নষ্ট হয়ে যায়।

— সংগ্রাম

@ চর্লিপারপার্ক, আপনি কি আরও বিস্তারিত GPU's are fast correlated with vanishing gradientsবলতে পারবেন, আমি একাধিক ম্যাট্রিক্স গুণকে প্রক্রিয়া করতে বৃহত মেমরি ব্যান্ডউইথথ সহ দ্রুত যুক্তি বুঝতে পারি! তবে আপনি অনুগ্রহ করে ব্যাখ্যা করতে পারেন যে এর ডেরিভেটিভগুলির সাথে কী সম্পর্ক আছে? অন্তর্ধান গ্রেডিয়েন্ট ইস্যু ওজন আরম্ভের সঙ্গে আরও অনেক কিছু বলে মনে হয় , তাই না!

— আনু

বিলুপ্ত গ্রেডিয়েন্ট সমস্যাটির জন্য আমাদের গ্রেডিয়েন্ট বংশোদ্ভূত সাথে সামান্য শিক্ষার হারগুলি ব্যবহার করা দরকার যার পরে রূপান্তর করতে অনেকগুলি ছোট পদক্ষেপ প্রয়োজন। আপনার যদি ধীরে ধীরে কম্পিউটার থাকে যা প্রতিটি পদক্ষেপের জন্য দীর্ঘ সময় নেয় তবে এটি একটি সমস্যা। আপনার যদি দ্রুত জিপিইউ থাকে যা একদিনে আরও অনেক ধাপ সম্পাদন করতে পারে তবে সমস্যাটি কম।

বিলুপ্ত গ্রেডিয়েন্ট সমস্যাটি মোকাবেলার বেশ কয়েকটি উপায় রয়েছে। আমি অনুমান করব যে সিএনএনগুলির পক্ষে সর্বাধিক প্রভাব সিগময়েড ননলাইনার ইউনিট থেকে সংশোধিত লিনিয়ার ইউনিটগুলিতে স্যুইচিং থেকে এসেছে। আপনি একটি সহজ স্নায়ুর নেটওয়ার্ক যার ত্রুটি বিবেচনা ওজন উপর নির্ভর করে শুধুমাত্র মাধ্যমে , যেখানে $E$ $w_{ij}$ $y_j$

y_{j} = f (\sum_{i} w_{i j} x_{i}),

$y_j = f\left( \sum_iw_{ij}x_i \right),$

এর গ্রেডিয়েন্ট হয়

\begin{aligned} \frac{\partial}{\partial w_{i j}} E & = \frac{\partial E}{\partial y_{j}} \cdot \frac{\partial y_{j}}{\partial w_{i j}} \\ = \frac{\partial E}{\partial y_{j}} \cdot f^{'} (\sum_{i} w_{i j} x_{i}) x_{i} । \end{aligned}

$\begin{align} \frac{\partial}{\partial w_{ij}} E &= \frac{\partial E}{\partial y_j} \cdot \frac{\partial y_j}{\partial w_{ij}} \\ &= \frac{\partial E}{\partial y_j} \cdot f'\left(\sum_i w_{ij} x_i\right) x_i. \end{align}$

তাহলে লজিস্টিক সিগমা ফাংশন, বৃহৎ ইনপুট সেইসাথে ছোট ইনপুট জন্য শূন্য পাসে হবে। যদি একটি সংশোধিত লিনিয়ার ইউনিট হয়, $f$ $f'$ $f$

ডেরিভেটিভ কেবল নেতিবাচক ইনপুটগুলির জন্য শূন্য এবং ধনাত্মক ইনপুটগুলির জন্য 1। আরও একটি গুরুত্বপূর্ণ অবদান হ'ল সঠিকভাবে ওজন শুরু করার থেকে from এই কাগজটি আরও বিশদগুলিতে চ্যালেঞ্জগুলি বোঝার জন্য ভাল উত্স হিসাবে দেখায় (যদিও আমি এটি এখনও পড়িনি):

\begin{aligned} চ (তোমার দর্শন লগ করা) = সর্বোচ্চ (0, তোমার দর্শন লগ করা), \end{aligned}

$\begin{align} f(u) = \max\left(0, u\right), \end{align}$

http://jmlr.org/proceedings/papers/v9/glorot10a/glorot10a.pdf

— লুকাস
সূত্র

আমি সংশোধিত লিনিয়ার ইউনিটগুলি সম্পর্কে কিছুটা বিস্মিত। হ্যাঁ, সিগময়েড ইত্যাদির জন্য গ্রেডিয়েন্টটি প্রায়শই খুব ছোট - তবে সংশোধিত লিনিয়ার ইউনিটগুলির জন্য এটি প্রায়শই শূন্য হয়। এর চেয়ে খারাপ কি না? সুতরাং, যদি কোনও ইউনিটের ওজন দুর্ভাগ্যজনক হয় তবে এগুলি কখনই পরিবর্তিত হবে না।

— হ্যান্স-পিটার স্টার

এই সম্পর্কে চিন্তাভাবনা করে, ফাঁসী এবং / অথবা গোলমাল রিলিজগুলি সেই কারণে ব্যবহৃত হতে পারে।

— সূর্যমুখী

আপনার প্রথম বাক্যটি সত্য কেন? উদাহরণস্বরূপ "বিলুপ্ত গ্রেডিয়েন্ট সমস্যাটির জন্য আমাদের গ্রেডিয়েন্ট বংশোদ্ভূত সাথে সামান্য শিক্ষার হারগুলি ব্যবহার করা দরকার যা পরে পরিবর্তনের জন্য অনেকগুলি ছোট পদক্ষেপ প্রয়োজন needs" বিলুপ্ত গ্রেডিয়েন্ট সমস্যা মোকাবেলায় কেন আমাদের ছোট শিক্ষার হারের প্রয়োজন? যদি গ্রেডিয়েন্টগুলি অদৃশ্য হয়ে যাওয়ার কারণে গ্রেডিয়েন্টগুলি ইতিমধ্যে ছোট হয় তবে আমি আশা করতাম যে তাদের ছোট করা কেবলমাত্র জিনিসগুলিকে আরও খারাপ করেছে।

— চার্লি পার্কার 1

ভাল প্রশ্ন, আমার উক্তিটি আরও ভাল করে ব্যাখ্যা করা উচিত ছিল। বিলুপ্ত গ্রেডিয়েন্ট সমস্যাটি নয় যে সমস্ত গ্রেডিয়েন্টগুলি ছোট (যা আমরা সহজেই বড় শিক্ষার হারগুলি ব্যবহার করে ঠিক করতে পারি), তবে নেটওয়ার্কের মাধ্যমে আপনি ব্যাকপ্রোপেট হিসাবে গ্রেডিয়েন্টগুলি অদৃশ্য হয়ে যায়। যেমন, গ্রেডিয়েন্টগুলি কয়েকটি স্তরগুলিতে ছোট তবে অন্যান্য স্তরগুলিতে বড়। আপনি যদি বড় শিক্ষার হার ব্যবহার করেন তবে পুরো জিনিসটি বিস্ফোরিত হয় (কারণ কিছু গ্রেডিয়েন্ট বড়) তবে আপনাকে একটি ছোট শিক্ষার হার ব্যবহার করতে হবে। একাধিক শেখার হার ব্যবহার করা আরও হাইপারপ্যারামিটার প্রবর্তনের ব্যয়ে সমস্যার সমাধানের জন্য আরেকটি পদ্ধতি।

— লুকাস

আমি যুক্তি দিয়ে বলব যে শেখার হারটি বেশিরভাগই বিস্ফোরক গ্রেডিয়েন্ট সমস্যার সাথে আবদ্ধ । অতিরঞ্জিতভাবে কম শিক্ষার হারের সাথে গ্রেডিয়েন্টটি স্কেলিং করা মোটেই বিন্দু গ্রেডিয়েন্টকে আটকাতে পারে না, শিখার বিষয়টি যথেষ্ট ধীরে ধীরে হ্রাস হওয়ায় এটি প্রভাবটি বিলম্বিত করে। প্রভাব নিজেই অন-লাইনগুলির বারবার প্রয়োগ এবং ছোট মানগুলির গুণনের কারণে ঘটে। অবশ্যই ছোট শিক্ষার হারগুলিতে যাওয়ার (ঝনঝন শক্তির কারণে) যাওয়ার প্রবণতা রয়েছে তবে এটি বিলুপ্ত গ্রেডিয়েন্টগুলির সাথে কিছুই করার নেই কারণ এটি কেবলমাত্র রাষ্ট্রীয় স্থানটি কতটা ভালভাবে অনুসন্ধান করা হয়েছে তা স্থিত করে (স্থিতিশীল শর্তাবলী) controls

— চালাডস্রুন