তানহ কেন একটি অ্যাক্টিভেশন ফাংশন হিসাবে সিগময়েডের চেয়ে প্রায় সবসময়ই ভাল?


33

অ্যান্ড্রু এনগের নিউরাল নেটওয়ার্কস এবং কোর্সেরার ডিপ লার্নিং কোর্সে তিনি বলেছিলেন যে ব্যবহারের ক্ষেত্রে ব্যবহার প্রায় সবসময়ই পছন্দনীয় ।s i g m o i dtanhsigmoid

তিনি যে কারণটি দিয়েছেন তা হ'ল ০.০ এর চেয়ে প্রায় 0 টি কেন্দ্র ব্যবহার করে আউটপুটগুলি এবং "পরবর্তী স্তরটির জন্য কিছুটা সহজ করে তোলে"।s i g m o i dtanhsigmoid

  1. কেন সক্রিয়করণের আউটপুট গতি শিক্ষার কেন্দ্রীভূত হয়? আমি ধরে নিলাম যে সে ব্যাকপ্রপের সময় শেখা যাচ্ছিল তাই তিনি আগের স্তরটির উল্লেখ করছেন?

  2. পছন্দসই করে এমন আরও কিছু বৈশিষ্ট্য রয়েছে কি? স্টিপার গ্রেডিয়েন্ট বিলম্বিত গ্রেডিয়েন্টগুলি বিলম্ব করবে?tanh

  3. চেয়ে ভাল এমন কোনও পরিস্থিতি রয়েছে কি?sigmoid

গণিত-আলো, স্বজ্ঞাত উত্তর পছন্দ করা হয়েছে।


13
একটি সিগময়েড ফাংশন এস-আকৃতির (তাই নাম)। সম্ভবত আপনি লজিস্টিক ফাংশন সম্পর্কে কথা বলা হয় । স্কেল এবং অবস্থান ব্যতীত, দুটি মূলত একই: । সুতরাং আসল পছন্দটি হ'ল আপনি অন্তর বা অন্তর আউটপুট চান কিনা লজিস্টিক(এক্স)=1ex1+ex(-1,1)(0,1)logistic(x)=12+12tanh(x2)(1,1)(0,1)
হেনরি

উত্তর:


21

ইয়ান LeCun এবং অন্যদের তর্ক দক্ষ BackProp যে

প্রশিক্ষণ সেটটির উপর প্রতিটি ইনপুট ভেরিয়েবলের গড় শূন্যের কাছাকাছি হলে রূপান্তরটি আরও দ্রুত হয়। এটি দেখতে, চূড়ান্ত ক্ষেত্রে বিবেচনা করুন যেখানে সমস্ত ইনপুট ইতিবাচক। প্রথম ওজন স্তরের একটি নির্দিষ্ট নোডের ওজন একটি সমানুপাতিক পরিমাণ দ্বারা আপডেট করা হয় যেখানে সেই নোডের (স্কেলার) ত্রুটি এবং ইনপুট ভেক্টর (সমীকরণ (5) এবং (10) দেখুন। যখন কোনও ইনপুট ভেক্টরের সমস্ত উপাদান ইতিবাচক হয়, তখন নোডে ফিড দেওয়া ওজনগুলির সমস্ত আপডেটের একই চিহ্ন (যেমন সাইন ( )) থাকবে। ফলস্বরূপ, এই ওজনগুলি সমস্ত হ্রাস বা সমস্ত একসাথে বৃদ্ধি করতে পারেδxδxδপ্রদত্ত ইনপুট প্যাটার্নের জন্য। সুতরাং, যদি কোনও ওজন ভেক্টরকে অবশ্যই দিক পরিবর্তন করতে হয় তবে এটি কেবলমাত্র জিগাজ্যাগিং দ্বারা এটি করতে পারে যা অদক্ষ এবং এইভাবে খুব ধীর।

এজন্য আপনার ইনপুটগুলি স্বাভাবিক করা উচিত যাতে গড়টি শূন্য হয়।

একই যুক্তিটি মধ্য স্তরগুলিতে প্রযোজ্য:

এই হিউরিস্টিকটি সমস্ত স্তরে প্রয়োগ করা উচিত যার অর্থ আমরা নোডের আউটপুটগুলির গড় গড় শূন্যের কাছাকাছি রাখতে চাই কারণ এই আউটপুটগুলি পরবর্তী স্তরের ইনপুট।

পোস্টস্ক্রিপ্ট @ ক্র্যাক এই বিষয়টি উল্লেখ করেছে যে এই উদ্ধৃতিটি আরএলইউ (x) = সর্বোচ্চ (0, এক্স) এর জন্য কোনও অর্থ দেয় না যা একটি ব্যাপক জনপ্রিয় অ্যাক্টিভেশন ফাংশনে পরিণত হয়েছে। যদিও রেলু লেকুন দ্বারা উল্লিখিত প্রথম জিগজ্যাগ সমস্যা এড়াতে পারে না, তবে এটি লেকুনের এই দ্বিতীয় পয়েন্টটি সমাধান করে না যারা বলে যে গড়কে শূন্যের দিকে ঠেলে দেওয়া জরুরি। আমি লেকুন এ সম্পর্কে কি বলতে চাই তা জানতে চাই। যাই হোক না কেন, ব্যাচ নরমালাইজেশন নামে একটি কাগজ রয়েছে যা লেকুনের কাজের শীর্ষে তৈরি করে এবং এই সমস্যাটির সমাধানের জন্য একটি উপায় সরবরাহ করে:

এটি দীর্ঘদিন ধরেই পরিচিত (LeCun et al।, 1998b; Wiesler & Ney, 2011) যে নেটওয়ার্ক প্রশিক্ষণটি যদি ইনপুটগুলি সাদা করা হয় - তবে লিনিয়ারালি রূপান্তরিতভাবে শূন্য মাধ্যম এবং ইউনিটের রূপগুলি রূপান্তরিত করে এবং সজ্জিত হয়। যেহেতু প্রতিটি স্তর নীচের স্তরগুলির দ্বারা উত্পাদিত ইনপুটগুলি পর্যবেক্ষণ করে, প্রতিটি স্তরের ইনপুটগুলির একই সাদাকরণ অর্জন করা সুবিধাজনক হবে।


যাইহোক, সিরাজের এই ভিডিওটি 10 মজার মিনিটে অ্যাক্টিভেশন ফাংশন সম্পর্কে অনেক কিছু ব্যাখ্যা করে।


@ এলকআউট বলেছেন "সিগময়েডের তুলনায় তানকে প্রাধান্য দেওয়া (আসল কারণ) ... তানহ এর ডেরিভেটিভগুলি সিগময়েডের ডেরিভেটিভসের চেয়ে বড়।"

আমি মনে করি এটি একটি নন-ইস্যু। সাহিত্যে এটিকে সমস্যা হতে দেখিনি। যদি এটি আপনাকে বিরক্ত করে যে একটি ডেরাইভেটিভ অন্যটির চেয়ে ছোট, তবে আপনি কেবল এটি স্কেল করতে পারেন।

লজিস্টিক ফাংশন আকৃতি আছে। সাধারণত, আমরা ব্যবহার করি তবে আপনার সমস্যাটি যদি ডাইরিভেটিভগুলি আরও বিস্তৃত করতে র জন্য অন্য কোনও মান ব্যবহার করা থেকে বিরত থাকে তবে কিছুই nothingσ(x)=11+ekxk=1k


নিতপিক: তানহও সিগময়েড ফাংশন। এস আকৃতির কোনও ফাংশন সিগময়েড। আপনি যে লোকেরা সিগময়েড ডাকছেন তা হ'ল লজিস্টিক ফাংশন। লজিস্টিক ফাংশন বেশি জনপ্রিয় হওয়ার কারণ historicalতিহাসিক কারণ। এটি পরিসংখ্যানবিদরা দীর্ঘকাল ব্যবহার করেছেন। এ ছাড়াও কেউ কেউ মনে করেন যে এটি আরও জৈবিকভাবে প্রশংসনীয়।


1
σ ( এক্স ) = σ ( এক্স ) ( 1 - σ ( এক্স ) ) 0.25 0 < σ ( এক্স ) < 1 তানহ ( এক্স ) = সেক 2 ( এক্স ) = 2maxxσ(x)<maxxtanh(x)
σ(x)=σ(x)(1σ(x))0.25
0<σ(x)<1
tanh(x)=sech2(x)=2exp(x)+exp(x))1.0

তা ছাড়া আমি বলেছিলাম যে বেশিরভাগ ক্ষেত্রে তানহের ডেরিভেটিভগুলি সিগময়েডের ডেরিভেটিভসের চেয়ে বড়। এটি প্রায়শই যখন আমরা 0 এর কাছাকাছি হয় তখনই ঘটে থাকে আপনি এই লিঙ্কটি এবং এখানে প্রদত্ত স্পষ্ট জবাবগুলিতে আপনাকে স্বাগত জানায় যে প্রশ্নটিতে তারা এও বলে যে সাধারণত the এর উত্সের চেয়ে বড় হয় । tanhsigmoid
ইকুলিয়ার

স্তব্ধ থাকুন ... এটি কল্পনাযোগ্য শোনায় তবে মাঝারি স্তরগুলির যদি গড় শূন্যের আউটপুট থাকে তবে কীভাবে এলএলইউ এত ভাল কাজ করে? এটা কি দ্বন্দ্ব নয়?
ক্র্যাক

@ আইকিউলারের, than এর চেয়ে বড় হওয়া der এর ব্যয় একটি অ-ইস্যু। বিরক্ত হলে আপনি এটি স্কেল করতে পারেন। tanhsigmoid
রিকার্ডো ক্রুজ

@ ক্র্যাক, ভালো কথা, আমি মনে করি এটি সত্যই লেকনের যুক্তিতে একটি ত্রুটি। আমি ব্যাচের নরমালাইজেশন পেপারে একটি লিঙ্ক যুক্ত করেছি যেখানে এটি সেই সমস্যাটি এবং কীভাবে এটি প্রশমিত হতে পারে সে সম্পর্কে আরও আলোচনা করে। দুর্ভাগ্যক্রমে, এই কাগজটি তনহের সাথে রিলুর তুলনা করে না, এটি কেবল লজিস্টিক (সিগময়েড) এর সাথে তুলনামূলক তুলনা করে।
রিকার্ডো ক্রুজ

14

এটা তোলে এটি অগত্যা বেশী ভালো নয় । অন্য কথায়, এটি কোনও অ্যাক্টিভেশন ফিকশনের কেন্দ্র নয় যা এটি আরও ভাল করে। এবং উভয় ফাংশনের পিছনে ধারণাটি একই, এবং তারা একই রকম "প্রবণতা" ভাগ করে। বলাই বাহুল্য যে TANH ফাংশনের একটি স্থানান্তরিত সংস্করণ বলা হয় সিগমা ফাংশন।sigmoidtanhsigmoid

আসল কারণ যে তুলনায় পছন্দ করা হয় সিগমা , যখন আপনি সাধারণত দ্রুত পেতে স্থানীয় (অথবা গ্লোবাল) ন্যূনতম সংগ্রাম করা হয় বিশেষত যখন এটি বড় তথ্য আসে, যে ডেরাইভেটিভস হয় TANH এর ডেরাইভেটিভস চেয়ে বড় হয় সিগমা । অন্য কথায়, আপনি যদি সক্রিয়করণ ফ ક્શન হিসাবে তানহ ব্যবহার করেন তবে আপনি আপনার ব্যয় ক্রিয়াকে দ্রুত কমিয়ে আনুন ।tanhsigmoidtanhsigmoidtanh

তবে হাইপারবোলিক ট্যানজেন্টের বৃহত্তর ডেরিভেটিভ কেন রয়েছে? কেবল আপনাকে খুব সাধারণ অন্তর্দৃষ্টি দেওয়ার জন্য আপনি নিম্নলিখিত গ্রাফটি পর্যবেক্ষণ করতে পারেন:

Sigmoid vs Hyperbolic Tangent

0 এবং 1 এর তুলনায় পরিসরটি -1 এবং 1 এর মধ্যে রয়েছে এটি ফাংশনটিকে নিউরাল নেটওয়ার্কগুলির জন্য আরও সুবিধাজনক করে তুলেছে। তা ছাড়া আমি যদি কিছু গণিত ব্যবহার করি তবে আমি প্রমাণ করতে পারি:

tanhx=2σ(2x)1

এবং সাধারণভাবে, আমরা প্রমাণ করতে পারি যে বেশিরভাগ ক্ষেত্রে ।|tanh(x)x|>|σ(x)x|


0

2
tanhsigmoidtanh

2xsigmoid(x) - 0.52xtanh

2x

3

প্রশ্নের অংশটির উত্তর দেওয়া এখন পর্যন্ত নিরস্ত:

অ্যান্ড্রু এনজি বলেছেন যে লজিস্টিক ফাংশনটি (সাধারণত সিগময়েড হিসাবে পরিচিত) ব্যবহার করা কেবল বাইনারি শ্রেণিবদ্ধকরণ নেটওয়ার্কের চূড়ান্ত স্তরটিতে উপলব্ধি করে।

01(0,1)tanh


আউটপুটটির জন্য, লজিস্টিক ফাংশনটি যদি আপনি সম্ভাবনা তৈরি করতে চান তবে তা বোঝা যায়, আমরা সকলেই তাতে একমত হতে পারি। মাঝখানে স্তরগুলির জন্য অ্যাক্টিভেশন হিসাবে লজিস্টিক ফাংশনের চেয়ে তানকে কেন পছন্দ করা হচ্ছে তা নিয়ে আলোচনা হচ্ছে।
রিকার্ডো ক্রুজ

কীভাবে আপনি জানতে পারবেন যে ওপি এর উদ্দেশ্য কী? দেখে মনে হচ্ছে তিনি একটি সাধারণ প্রশ্ন করছেন।
টম হেল

2

এটি সমস্তই অ্যাক্টিভেশন ফাংশনের ডেরিভেটিভসের উপর নির্ভর করে, সিগময়েড ফাংশনটির সাথে প্রধান সমস্যাটি হল এর ডেরাইভেটিভের সর্বাধিক মান 0.25, এর অর্থ হ'ল ডাব্লু এবং বি এর মানগুলির আপডেটটি ছোট হবে।

অন্যদিকে তান ফাংশনটির ডেরাইভেটিভ রয়েছে 1.0 পর্যন্ত, ডাব্লু এবং বি এর আপডেটগুলি আরও বড় করে তোলে।

এটি তান ফাংশন সিগময়েড ফাংশনের চেয়ে অ্যাক্টিভেশন ফাংশন (লুকানো স্তরগুলির জন্য) হিসাবে প্রায় সবসময়ই আরও ভাল করে তোলে।

এটি নিজেকে প্রমাণ করার জন্য (কমপক্ষে একটি সাধারণ ক্ষেত্রে), আমি একটি সাধারণ নিউরাল নেটওয়ার্ক কোড করেছিলাম এবং সিগময়েড, তানহ ও রিলুকে অ্যাক্টিভেশন ফাংশন হিসাবে ব্যবহার করি, তারপরে আমি ত্রুটি করেছিলাম যে ত্রুটির মান কীভাবে বিকশিত হয়েছিল এবং এটিই আমি পেয়েছি।

enter image description here

আমি লিখেছি সম্পূর্ণ নোটবুকটি এখানে https://www.kaggle.com/moriano/a-showcase-of-how-relus-can-speed-up-the-learning

যদি এটি সহায়তা করে তবে এখানে তানহ ফাংশনের ডেরিভেটিভস এবং সিগময়েডের চার্ট দেওয়া হয়েছে (উল্লম্ব অক্ষের দিকে মনোযোগ দিন!)

enter image description here

enter image description here


α

আপনি কি উচ্চতর শিক্ষার হারের সাথে একটি স্থিতিশীল শিক্ষার বক্ররেখা না রাখার ঝুঁকি চালাচ্ছেন?
হুয়ান আন্তোনিও গোমেজ মরিয়ানো

ঠিক আছে, যদি ডেরাইভেটিভগুলি আরও স্থিতিশীল হয়, তবে শিক্ষার হার বাড়ানো অনুমানটিকে অচল করে দেওয়ার সম্ভাবনা কম।
ক্লিফ এবি

এটা মোটামুটি বিষয়, আপনার কি এমন কোনও লিঙ্ক রয়েছে যেখানে আমি আরও এই বিষয়টি শিখতে পারি?
হুয়ান আন্তোনিও গোমেজ মরিয়ানো
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.