দ্রুত বা নিম্নতর হওয়া একটি আপেক্ষিক শব্দ এবং এটির সাথে তুলনা করা প্রসঙ্গে বুঝতে হবে। সুতরাং, এটি বোঝার জন্য, আমাদের প্রথমে বিবেচনা করতে হবে যে গ্রেডিয়েন্ট বংশোদ্ভূত অন্যান্য ধরণের অ্যাক্টিভেশন ফাংশনের সাথে কীভাবে কাজ করে।
উদাহরণস্বরূপ সেটআপ
সঙ্গে একটি এমএলপি বিবেচনা করুন n এক আকারের গোপন স্তর।
z1=W1x+b1
a1=f(z1)
...
zn=Wnan−1+bn
y=f(zn)
কোথায় f অ্যাক্টিভেশন ফাংশন।
তানহ এবং সিগময়েড - গ্রেডিয়েন্ট নিখোঁজ
অনুমান করা fতানহ বা সিগময়েড অ্যাক্টিভেশন ফাংশন। এই ফাংশনগুলির উত্পন্নকরণটি -1 থেকে 1 এর মধ্যে বা আনুষ্ঠানিকভাবে সীমাবদ্ধf′(x)∈(−1,1) কোন জন্য x।
এটি "গ্রেডিয়েন্ট ভ্যানিশিং সমস্যা" নামে পরিচিত গভীর শিক্ষার ক্ষেত্রে একটি অত্যন্ত গুরুত্বপূর্ণ সমস্যার কারণ হয়ে দাঁড়ায়। এর ডেরাইভেটিভ বিবেচনা করা যাকy wrt W1। চেইন বিধি দ্বারা, আমরা আছে
dfdW1=dfdWndWndWn−1...dW2dW1
এবং যে কোনও জন্য 0<i<n, লক্ষ্য করুন
dXidXi−1=f′(Wi−1ai−2+bi−1)×ai−2∈(−1,1)
(প্রথম শব্দটির মধ্যে হয় (−1,1) কারণ f′ পূর্ব আলোচনা হিসাবে সীমাবদ্ধ এবং ai−2 এর মধ্যেও রয়েছে (−1,1) ইনপুট মান হিসাবে স্কোয়াশ।)
সুতরাং dfdW1মূলত প্রতিটি (0, 1) এর মধ্যে প্রচুর পদগুলির পণ্য is বৃহত্তরn (নেটওয়ার্ক আরও গভীর) আমাদের যে গুণটি আরও বেশি গুণন করতে হবে তার ফলাফল হিসাবে dfdW1তাত্পর্যপূর্ণভাবে ছোট হয়। এই ক্ষতিকারক সম্পর্কের কারণে, গ্রেডিয়েন্টটি এত তাড়াতাড়ি ছোট হয়ে যায় আমরা কার্যকরভাবে এটিকে শূন্য হিসাবে বিবেচনা করতে পারি। শূন্য গ্রেডিয়েন্ট থাকার পরিণতি কোন শিক্ষণই ঘটতে পারে না কারণ গ্রেডিয়েন্ট বংশোদ্ভূত হওয়ার জন্য আমাদের আপডেটের নিয়ম সেই গ্রেডিয়েন্টের উপর ভিত্তি করে।
RELU এবং ডেড নিউরন
বিলুপ্ত গ্রেডিয়েন্ট সমস্যার সাথে মোকাবিলা করার জন্য পুনরায় আবিষ্কার করা হয়েছে কারণ এর ডেরাইভেটিভ সর্বদা 1 থাকে ai>0 তো কখন f RELU আমাদের আছে:
dXidXi−1=ai−2
dfdW1=a1a2a3...an−1
যখন এটি সব সুন্দর এবং ভাল x>0 যখনই জিনিসগুলি বিচ্ছিন্ন হয়ে পড়ে x<0, এবার গ্রেডিয়েন্টটি শূন্যের খুব কাছেই নয়, এটি খাঁটি শূন্য। একবার কোনও নিউরন সেখানে পৌঁছে গেলে মোটেও ফিরে আসার সুযোগ নেই। এ কারণেই এটি "ডেড নিউরন" সমস্যা হিসাবে পরিচিত
ফাঁস RELU এবং ELU
রিলু আর ই এলইউ হ'ল রেলইউর পরে প্রাকৃতিক বিকাশ। এগুলি RELU এর সাথে 1 টির সমান ডেরিভেটিভের মতোx>0 তবে কখন শূন্য থেকে বঞ্চিত এড়িয়ে "মৃত নিউরন" এড়ানো হয়েছে x<1।
আমি দুজনের মধ্যে পার্থক্য জন্য মূল কাগজ উদ্ধৃত ।
যদিও LReLUs এবং PReLUs এর নেতিবাচক মান রয়েছে, তারা কোনও শব্দ-দৃ -় নিষ্ক্রিয় অবস্থা নিশ্চিত করে না। ELUs ছোট ইনপুট সহ একটি নেতিবাচক মানকে পরিপূর্ণ করে এবং এর ফলে এগিয়ে প্রচারিত প্রকরণ এবং তথ্য হ্রাস করে।
স্বজ্ঞাত ব্যাখ্যা নীচের মত যায়। ইএলইউতে, যখনই এক্স পর্যাপ্ত পরিমাণে ছোট হয়ে যায়, গ্রেডিয়েন্টটি সত্যই ছোট এবং স্যাচুরেটেড হয়ে যায় (তানহ এবং সিগময়েডের জন্য এটি একইভাবে ঘটে)। ছোট গ্রেডিয়েন্টের অর্থ হল যে লার্নিং অ্যালগরিদম স্যাচুরেটেড নিউরনের সাথে ইন্টারেক্টিভিটি নিয়ে চিন্তা না করেই অন্যান্য ওজনের সুরের দিকে মনোনিবেশ করতে পারে।
ডিগ্রি 2 এর বহুবচন বিবেচনা করুন যা একটি 3-ডি স্পেসে মসৃণ পৃষ্ঠ হিসাবে উপস্থাপিত হতে পারে। স্থানীয় ন্যূনতম সন্ধানের জন্য, গ্রেডিয়েন্ট বংশদ্ভুত অ্যালগরিদমকে এক্স এবং ওয়াই-দিক উভয় ক্ষেত্রে খাড়া হওয়া বিবেচনা করতে হবে। যদি গ্রেডিয়েন্টটি এক্স-দিক এবং y- দিক উভয়ই নেতিবাচক হয় তবে কোন রাস্তাটি ভাল তা পরিষ্কার নয়। সুতরাং এর মধ্যে কোথাও কোনও পথ বেছে নেওয়া বুদ্ধিমানের কাজ। তবে যদি আমরা ইতিমধ্যে জানতে পারি যে সমস্ত কিছু এক্স-দিকনির্দেশে সমতল (শূন্য গ্রেডিয়েন্টস) হয় তবে এটি Y- দিকের দিকে যাওয়ার জন্য কোনও মস্তিষ্কে পরিণত হয়। অথবা অন্য কথায়, আপনি অনুসন্ধানের স্থানটি আরও ছোট হয়ে যান।
বিশেষ দ্রষ্টব্য
গভীর শিক্ষায়, এটিকে সমর্থন করার জন্য পর্যাপ্ত অভিজ্ঞতাগত প্রমাণ বা গভীর-সমঝোতা ছাড়াই প্রচুর দাবি রয়েছে। ইএলইউর ক্ষেত্রে, যদিও এটি সত্য হতে পারে যে এটি কিছু ডেটাসেটের জন্য দ্রুত রূপান্তর ঘটায়, এটি সত্যও হতে পারে যে এটি শেখার অ্যালগরিদমকে আলাদা আলাদা ডেটাসেটের জন্য স্থানীয় সর্বাধিক স্থানে আটকে রাখে। আমরা এখনও যথেষ্ট জানি না।