যদি ফাংশনটি মসৃণ হয় তবে কেন এটি গ্রেডিয়েন্ট বংশোদ্ভূত হবে?


10

আমি এখন "হ্যান্ডস-অন মেশিন লার্নিং উইথ সায়কিট-লার্ন অ্যান্ড টেনসরফ্লো" শীর্ষক একটি বই পড়েছি এবং ১১ তম অধ্যায়ে এটির ইএলইউ (এক্সপেনশনাল রিলু) এর ব্যাখ্যা সম্পর্কে নিম্নলিখিত বিবরণ রয়েছে।

তৃতীয়, ফাংশনটি প্রায় z = 0 সহ সর্বত্র মসৃণ, যা গ্রেডিয়েন্ট বংশোদ্ভূতিকে গতি বাড়িয়ে তুলতে সহায়তা করে, যেহেতু এটি z = 0 এর বেশি বাম এবং ডানদিকে বাউন্স করে না।

এখানে চিত্র বর্ণনা লিখুন

zমানে উপরে গ্রাফে x- অক্ষ। আমি বুঝতে পারি যে ডেরিভেটিভটি মসৃণ কারণ z < 0লাইনটির একটি বক্ররেখা রয়েছে এবং সেই অঞ্চলে ডেরিভেটিভ আর সমান হয় না 0

যাইহোক, কেন এমনটি হয় যে যদি ফাংশনটি "z = 0 সহ প্রায় সর্বত্রই মসৃণ হয় তবে এটি গ্রেডিয়েন্ট বংশোদ্ভূত গতি বাড়িয়ে তোলে?"


বিটিডাব্লু আমি কি সঠিক এসই তে আছি? ডেটা সায়েন্স, আর্টিফিশিয়াল ইন্টেলিজেন্স, এবং ক্রস ভ্যালিডেটেড, (এবং ম্যাথএসই) ... আমার কাছে মনে হয় যে অনেকগুলি বিষয় একে অপরের সাথে অত্যন্ত জড়িত ...
ব্লেজার্ড

2
আমি মনে করি আপনি ডেটা সায়েন্সে বা ক্রস ভ্যালিডেটে এই প্রশ্নটি নিরাপদে পোস্ট করবেন। সম্ভবত এটি কৃত্রিম বুদ্ধিমত্তার পক্ষেও ঠিক আছে তবে আমি সেই সাইটের সাথে কমই পরিচিত।
নিল স্লেটার

ভাল প্রশ্ন. মসৃণতা আপনাকে অস্থায়ীভাবে শিশুর পদক্ষেপ গ্রহণের পরিবর্তে সঠিক দিকে সাহসী পদক্ষেপ গ্রহণের অনুমতি দেয় কারণ পরবর্তী ধাপে গ্রেডিয়েন্টটি খুব দ্রুত পরিবর্তন করতে পারে। রূপান্তর বিশ্লেষণের জন্য উদাহরণস্বরূপ দেখুন, মসৃণ এবং শক্তিশালী উত্তল
এমেরে

@ নীলস্ল্যাটার এআই এর একটি খুব স্পষ্ট সুযোগ নেই। তারা এ জাতীয় প্রশ্ন বন্ধ করে দেয়। সুতরাং, ডিএস এবং সিভি সেরা বিকল্পগুলি হবে :)
ডওয়ানি 33

উত্তর:


1

আমার ধারণা এটি ডেরিভেটিভের কারণে, কারণ রেলুতে 0 এ একটি বিচ্ছিন্ন ডেরিভেটিভ রয়েছে সুতরাং আপনি যদি সংজ্ঞাটি ব্যবহার করেন:

ff(x+ϵ)f(xϵ)2ϵ

এবং x 0 এর খুব কাছাকাছি, আপনি তাদের 'লাফিয়ে' লাফিয়ে অনেকগুলি পাবেন।


0

একটি প্রাথমিক: এখানে একটি ফাংশনের তিনটি বৈশিষ্ট্য রয়েছে যা এখানে প্রাসঙ্গিক: ধারাবাহিক, একঘেয়ে, এবং পার্থক্যযোগ্য। RELU অবিচ্ছিন্ন এবং একরঙা বাদাম z = 0 এ পৃথক নয়। এক্সফোনেনশিয়াল রিলু বা ইএলইউ তিনটি বৈশিষ্ট্যের মধ্যে রয়েছে।

ডিফারেনশিয়াল বা গ্রেডিয়েন্ট আপনাকে একটি দিকনির্দেশ দেয়। যখন কোনও ফাংশনের ডাইরিভেটিভ একটি বিন্দুতে অপরিজ্ঞাত হয়, তখন গ্রেডিয়েন্টের দিকটি সেই বিন্দুতে অনির্দিষ্ট হয়।

গ্রেডিয়েন্ট বংশোদ্ভূত প্রয়োগ করার সময়, আমরা ক্রমাগত প্যারামিটারগুলিকে সংশোধন করতে চাই যে ক্ষতির ক্রিয়াটি অবিচলিতভাবে হ্রাস পায়, যা আমরা ন্যূনতম দিকে অগ্রসর হতে চাই বলে অনুরূপ।

যখন কোনও ক্ষতির ক্রিয়াকলাপের ডেরাইভেটিভ কোনও সময়ে সংজ্ঞায়িত হয়, তখন গ্রেডিয়েন্টটি অনির্দিষ্ট হয়। এর অর্থ গ্রেডিয়েন্ট বংশোদ্ভূত সম্ভাব্যভাবে ভুল দিকে যেতে পারে। এই অনির্দিষ্টকালের কারণে সৃষ্ট বিলম্বের পরিমাণটি শিক্ষার হার এবং অন্যান্য হাইপার-পরামিতিগুলির উপর নির্ভর করে। হাইপার-প্যারামিটার নির্বিশেষে, পরিসংখ্যানগতভাবে, z = 0 এ RELU এ অপরিজ্ঞাত ডেরাইভেটিভ গ্রেডিয়েন্ট বংশোদ্ভূতকে ধীর করে দেওয়ার জন্য অবদান রাখে।


সূচনা হওয়ার পরে প্যারামিটারটি ঠিক z = 0 হয়ে যায় এমনটি খুব কমই।
পিটার

0

দ্রুত বা নিম্নতর হওয়া একটি আপেক্ষিক শব্দ এবং এটির সাথে তুলনা করা প্রসঙ্গে বুঝতে হবে। সুতরাং, এটি বোঝার জন্য, আমাদের প্রথমে বিবেচনা করতে হবে যে গ্রেডিয়েন্ট বংশোদ্ভূত অন্যান্য ধরণের অ্যাক্টিভেশন ফাংশনের সাথে কীভাবে কাজ করে।

উদাহরণস্বরূপ সেটআপ

সঙ্গে একটি এমএলপি বিবেচনা করুন n এক আকারের গোপন স্তর।

z1=W1x+b1

a1=f(z1)

...

zn=Wnan1+bn

y=f(zn)

কোথায় f অ্যাক্টিভেশন ফাংশন।

তানহ এবং সিগময়েড - গ্রেডিয়েন্ট নিখোঁজ

অনুমান করা fতানহ বা সিগময়েড অ্যাক্টিভেশন ফাংশন। এই ফাংশনগুলির উত্পন্নকরণটি -1 থেকে 1 এর মধ্যে বা আনুষ্ঠানিকভাবে সীমাবদ্ধf(x)(1,1) কোন জন্য x

এটি "গ্রেডিয়েন্ট ভ্যানিশিং সমস্যা" নামে পরিচিত গভীর শিক্ষার ক্ষেত্রে একটি অত্যন্ত গুরুত্বপূর্ণ সমস্যার কারণ হয়ে দাঁড়ায়। এর ডেরাইভেটিভ বিবেচনা করা যাকy wrt W1। চেইন বিধি দ্বারা, আমরা আছে

dfdW1=dfdWndWndWn1...dW2dW1

এবং যে কোনও জন্য 0<i<n, লক্ষ্য করুন

dXidXi1=f(Wi1ai2+bi1)×ai2(1,1)

(প্রথম শব্দটির মধ্যে হয় (1,1) কারণ f পূর্ব আলোচনা হিসাবে সীমাবদ্ধ এবং ai2 এর মধ্যেও রয়েছে (1,1) ইনপুট মান হিসাবে স্কোয়াশ।)

সুতরাং dfdW1মূলত প্রতিটি (0, 1) এর মধ্যে প্রচুর পদগুলির পণ্য is বৃহত্তরn (নেটওয়ার্ক আরও গভীর) আমাদের যে গুণটি আরও বেশি গুণন করতে হবে তার ফলাফল হিসাবে dfdW1তাত্পর্যপূর্ণভাবে ছোট হয়। এই ক্ষতিকারক সম্পর্কের কারণে, গ্রেডিয়েন্টটি এত তাড়াতাড়ি ছোট হয়ে যায় আমরা কার্যকরভাবে এটিকে শূন্য হিসাবে বিবেচনা করতে পারি। শূন্য গ্রেডিয়েন্ট থাকার পরিণতি কোন শিক্ষণই ঘটতে পারে না কারণ গ্রেডিয়েন্ট বংশোদ্ভূত হওয়ার জন্য আমাদের আপডেটের নিয়ম সেই গ্রেডিয়েন্টের উপর ভিত্তি করে।

RELU এবং ডেড নিউরন

বিলুপ্ত গ্রেডিয়েন্ট সমস্যার সাথে মোকাবিলা করার জন্য পুনরায় আবিষ্কার করা হয়েছে কারণ এর ডেরাইভেটিভ সর্বদা 1 থাকে ai>0 তো কখন f RELU আমাদের আছে:

dXidXi1=ai2
dfdW1=a1a2a3...an1

যখন এটি সব সুন্দর এবং ভাল x>0 যখনই জিনিসগুলি বিচ্ছিন্ন হয়ে পড়ে x<0, এবার গ্রেডিয়েন্টটি শূন্যের খুব কাছেই নয়, এটি খাঁটি শূন্য। একবার কোনও নিউরন সেখানে পৌঁছে গেলে মোটেও ফিরে আসার সুযোগ নেই। এ কারণেই এটি "ডেড নিউরন" সমস্যা হিসাবে পরিচিত

ফাঁস RELU এবং ELU

রিলু আর ই এলইউ হ'ল রেলইউর পরে প্রাকৃতিক বিকাশ। এগুলি RELU এর সাথে 1 টির সমান ডেরিভেটিভের মতোx>0 তবে কখন শূন্য থেকে বঞ্চিত এড়িয়ে "মৃত নিউরন" এড়ানো হয়েছে x<1

আমি দুজনের মধ্যে পার্থক্য জন্য মূল কাগজ উদ্ধৃত ।

যদিও LReLUs এবং PReLUs এর নেতিবাচক মান রয়েছে, তারা কোনও শব্দ-দৃ -় নিষ্ক্রিয় অবস্থা নিশ্চিত করে না। ELUs ছোট ইনপুট সহ একটি নেতিবাচক মানকে পরিপূর্ণ করে এবং এর ফলে এগিয়ে প্রচারিত প্রকরণ এবং তথ্য হ্রাস করে।

স্বজ্ঞাত ব্যাখ্যা নীচের মত যায়। ইএলইউতে, যখনই এক্স পর্যাপ্ত পরিমাণে ছোট হয়ে যায়, গ্রেডিয়েন্টটি সত্যই ছোট এবং স্যাচুরেটেড হয়ে যায় (তানহ এবং সিগময়েডের জন্য এটি একইভাবে ঘটে)। ছোট গ্রেডিয়েন্টের অর্থ হল যে লার্নিং অ্যালগরিদম স্যাচুরেটেড নিউরনের সাথে ইন্টারেক্টিভিটি নিয়ে চিন্তা না করেই অন্যান্য ওজনের সুরের দিকে মনোনিবেশ করতে পারে।

ডিগ্রি 2 এর বহুবচন বিবেচনা করুন যা একটি 3-ডি স্পেসে মসৃণ পৃষ্ঠ হিসাবে উপস্থাপিত হতে পারে। স্থানীয় ন্যূনতম সন্ধানের জন্য, গ্রেডিয়েন্ট বংশদ্ভুত অ্যালগরিদমকে এক্স এবং ওয়াই-দিক উভয় ক্ষেত্রে খাড়া হওয়া বিবেচনা করতে হবে। যদি গ্রেডিয়েন্টটি এক্স-দিক এবং y- দিক উভয়ই নেতিবাচক হয় তবে কোন রাস্তাটি ভাল তা পরিষ্কার নয়। সুতরাং এর মধ্যে কোথাও কোনও পথ বেছে নেওয়া বুদ্ধিমানের কাজ। তবে যদি আমরা ইতিমধ্যে জানতে পারি যে সমস্ত কিছু এক্স-দিকনির্দেশে সমতল (শূন্য গ্রেডিয়েন্টস) হয় তবে এটি Y- দিকের দিকে যাওয়ার জন্য কোনও মস্তিষ্কে পরিণত হয়। অথবা অন্য কথায়, আপনি অনুসন্ধানের স্থানটি আরও ছোট হয়ে যান।

বিশেষ দ্রষ্টব্য

গভীর শিক্ষায়, এটিকে সমর্থন করার জন্য পর্যাপ্ত অভিজ্ঞতাগত প্রমাণ বা গভীর-সমঝোতা ছাড়াই প্রচুর দাবি রয়েছে। ইএলইউর ক্ষেত্রে, যদিও এটি সত্য হতে পারে যে এটি কিছু ডেটাসেটের জন্য দ্রুত রূপান্তর ঘটায়, এটি সত্যও হতে পারে যে এটি শেখার অ্যালগরিদমকে আলাদা আলাদা ডেটাসেটের জন্য স্থানীয় সর্বাধিক স্থানে আটকে রাখে। আমরা এখনও যথেষ্ট জানি না।


0

মসৃণ ফাংশনগুলি কেন অপ্টিমাইজ করার জন্য দ্রুত, তবে কোনও গাণিতিক প্রমাণ বা কিছুই নেই এর আমার একটি স্বজ্ঞাত ধারণা রয়েছে।

গ্রেডিয়েন্ট বংশোদ্ভূত ওজনে পরিবর্তন নির্ধারণের জন্য অ্যাক্টিভেশন ফাংশনের ডেরাইভেটিভকে গণনা করে। যখন অ্যাক্টিভেশন ফাংশনটিতে একটি হার্ড কাটা থাকে (যেমন রেলুর জন্য z = 0 এ) ইউনিটটির সক্রিয়করণ ওজন পরিবর্তন করার সময় নির্দিষ্ট ডেটা পয়েন্টগুলির জন্য আমূল (যেমন সর্বদা শূন্য বা লিনিয়ার) পরিবর্তিত হতে পারে।

অন্যান্য ওজনের নির্দিষ্ট ডেটা পয়েন্টের জন্য নির্দিষ্ট ইউনিটের এই মূলগতভাবে পৃথক আচরণে পারদর্শী হওয়া প্রয়োজন। যাইহোক, পরবর্তী যুগের সময়কালে ইউনিটের আচরণটি আবার আমূল পরিবর্তন হয় পূর্ববর্তী যুগের পরিবর্তনের দিকে নজর রাখে নেটওয়ার্কটি keeps

একটি মসৃণ ফাংশন সহ এমন কোনও আমূল পরিবর্তন নেই। এবং এইভাবে নেটওয়ার্ক আরও ধীরে ধীরে স্থিতিশীল হতে পারে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.