সাধারণভাবে নিউরাল নেটওয়ার্কগুলিতে অ্যাক্টিভেশন ফাংশনগুলির পার্থক্য


15

আমি নিউরাল নেটওয়ার্কগুলির জন্য অ্যাক্টিভেশন ফাংশন ধরণের অধ্যয়ন করেছি। ফাংশনগুলি নিজেরাই বেশ সোজা, তবে প্রয়োগের পার্থক্য সম্পূর্ণ পরিষ্কার নয়।

এটি যুক্তিসঙ্গত এবং লিনিয়ার ধরণের ফাংশনগুলির মধ্যে পার্থক্য রাখার পক্ষে যুক্তিযুক্ত যে বাইনারি / অবিচ্ছিন্ন আউটপুট নির্ভর করে তবে সাধারণ লিনিয়ারটির চেয়ে সিগময়েড ফাংশনটির সুবিধা কী?

আরএলইউ বিশেষত আমার জন্য বুঝতে খুব কঠিন, উদাহরণস্বরূপ: এমন কোনও ফাংশন ব্যবহার করার কী দরকার যা ইতিবাচক ইনপুটগুলির ক্ষেত্রে লিনিয়ার মতো আচরণ করে তবে sণাত্মক ক্ষেত্রে "সমতল"? এর পিছনে অন্তর্দৃষ্টি কী? বা এটি কি কেবল একটি সাধারণ ট্রায়াল-ত্রুটিযুক্ত জিনিস, এর চেয়ে বেশি কিছুই নয়?

উত্তর:


16

সিভিতে অনুরূপ একটি প্রশ্ন জিজ্ঞাসা করা হয়েছিল: স্নায়ু নেটওয়ার্কগুলিতে পেশাদার / বিঘ্নের সাথে অ্যাক্টিভেশন ফাংশনের বিস্তৃত তালিকা

আমি উত্তরগুলির একটির নীচে অনুলিপি করছি:

তেমন একটি তালিকা খুব বেশি পরিসীমাবদ্ধ না হলেও: http://cs231n.github.io/neural-networks-1/

অ্যাক্টিভেশন ফাংশন সাধারণত ব্যবহৃত হয়

প্রতিটি অ্যাক্টিভেশন ফাংশন (বা অ-লিনিয়ারিটি ) একটি একক সংখ্যা নেয় এবং এটিতে নির্দিষ্ট নির্দিষ্ট গাণিতিক অপারেশন করে। অনুশীলনে আপনার মুখোমুখি হতে পারে এমন বেশ কয়েকটি অ্যাক্টিভেশন ফাংশন রয়েছে:

এখানে চিত্র বর্ণনা লিখুনএখানে চিত্র বর্ণনা লিখুন

বাম: সিগময়েড অ-লিনিয়ারিটি প্রকৃত সংখ্যাগুলি মধ্যে বিস্তৃত হতে পারে [0,1] ডান: তানহ অ-লিনিয়ারিটি আসল সংখ্যাটিকে [-1,1] এর মধ্যে বিস্তৃত করে।

সিগমা। সিগময়েড অ-লিনিয়ারিটির গাণিতিক রূপ এবং উপরের চিত্রটিতে বাম দিকে প্রদর্শিত হয়। পূর্ববর্তী বিভাগে ইঙ্গিত হিসাবে, এটি একটি আসল মূল্যবান সংখ্যা নেয় এবং "স্কোয়াশেস" এটি 0 এবং 1 এর মধ্যে সীমাতে চলে আসে In যেহেতু এটির নিউরনের ফায়ারিং হার হিসাবে একটি দুর্দান্ত ব্যাখ্যা রয়েছে: একেবারে (0) গুলি করা থেকে শুরু করে সুনির্দিষ্ট সর্বাধিক ফ্রিকোয়েন্সি (1) এ পুরোপুরি স্যাচুরেটেড ফায়ারিং পর্যন্ত নয়। অনুশীলনে, সিগময়েড অ-লিনিয়ারিটি সম্প্রতি ফেভারিটের বাইরে চলে গেছে এবং এটি খুব কমই ব্যবহৃত হয়। এটির দুটি প্রধান ত্রুটি রয়েছে:σ(এক্স)=1/(1+ +-এক্স)

  • সিগময়েডগুলি গ্রেডিয়েন্টগুলি পরিপূর্ণ করে এবং হত্যা করে । সিগময়েড নিউরনের একটি খুব অবাঞ্ছিত সম্পত্তি হ'ল নিউরনের অ্যাক্টিভেশন যখন 0 বা 1 এর উভয় পুচ্ছতে তৃপ্ত হয়, তখন এই অঞ্চলগুলির গ্রেডিয়েন্ট প্রায় শূন্য হয়। মনে রাখবেন যে ব্যাকপ্রসাগরণের সময়, এই (স্থানীয়) গ্রেডিয়েন্টটি পুরো উদ্দেশ্যটির জন্য এই গেটের আউটপুটটির গ্রেডিয়েন্টে গুণ করা হবে। সুতরাং, যদি স্থানীয় গ্রেডিয়েন্ট খুব ছোট হয়, তবে এটি গ্রেডিয়েন্টকে কার্যকরভাবে "হত্যা" করবে এবং নিউরনের মধ্য দিয়ে তার ওজনে এবং প্রায়শই কোনও সংকেত প্রবাহিত হবে না এবং তার তথ্যগুলিতে পুনরাবৃত্ত হবে। অতিরিক্তভাবে, স্যাচুরেশন প্রতিরোধের জন্য সিগময়েড নিউরনের ওজন সূচনা করার সময় এক অতিরিক্ত অতিরিক্ত সাবধানতা অবলম্বন করতে হবে। উদাহরণস্বরূপ, যদি প্রাথমিক ওজন খুব বেশি হয় তবে বেশিরভাগ নিউরন স্যাচুরেটেড হয়ে যায় এবং নেটওয়ার্ক সবেই শিখবে।
  • সিগময়েড আউটপুটগুলি শূন্য-কেন্দ্রিক নয় । এটি অনাকাঙ্ক্ষিত যেহেতু নিউরালনগুলি পরে নিউরাল নেটওয়ার্কে প্রসেসিংয়ের পরবর্তী স্তরগুলিতে (খুব শীঘ্রই এটি সম্পর্কে আরও বেশি) ডেটা প্রাপ্ত হবে যা শূন্য-কেন্দ্রিক নয়। (যেমন এই গ্রেডিয়েন্ট বংশদ্ভুত সময় গতিবিদ্যা উপর বিষয় রয়েছে সবসময় ইতিবাচক হলে ডেটা একটি স্নায়ুর উদ্ভেদ যদি কারণ elementwise মধ্যে )), তারপর ওজন উপর গ্রেডিয়েন্ট পারেন backpropagation সময় ইচ্ছা পরিণত সমস্ত ধনাত্মক, বা সমস্ত নেতিবাচক (সম্পূর্ণ এক্সপ্রেশন গ্রেডিয়েন্ট উপর নির্ভর করে = ডব্লু টি এক্স + বি ডাব্লু এক্স>0=Wটিএক্স+ +W)। এটি ওজনের জন্য গ্রেডিয়েন্ট আপডেটগুলিতে অনাকাঙ্ক্ষিত জিগ-জাগিং গতিশীলতার পরিচয় দিতে পারে। তবে খেয়াল করুন যে একবার এই গ্রেডিয়েন্টগুলি ডেটা ব্যাচ জুড়ে যুক্ত করা গেলে ওজনের চূড়ান্ত আপডেটে ভেরিয়েবল চিহ্ন থাকতে পারে, কিছুটা এই সমস্যাটিকে প্রশমিত করে। অতএব, এটি একটি অসুবিধা হলেও উপরের স্যাচুরেটেড অ্যাক্টিভেশন সমস্যার তুলনায় এর কম গুরুতর পরিণতি হয়েছে।

TANH। তানহ অ-লিনিয়ারটি ডানদিকে উপরের চিত্রটিতে প্রদর্শিত হয়। এটি একটি আসল-মূল্যবান সংখ্যাকে [-1, 1] এর ব্যাপ্তিতে স্কোয়াশ করে। সিগময়েড নিউরনের মতো, এর ক্রিয়াকলাপগুলি পরিপূর্ণ হয় তবে সিগময়েড নিউরনের বিপরীতে এর আউটপুট শূন্য-কেন্দ্রিক। অতএব, অনুশীলনে তানহ অ-লিনিয়ারিটি সর্বদা সিগময়েড ননলাইনারিটির চেয়ে বেশি পছন্দ করা হয়। এছাড়াও লক্ষ করুন যে তানহ নিউরনটি কেবল একটি স্কেলড সিগময়েড নিউরন, বিশেষত নিম্নলিখিতটি ধারণ করে: ।TANH(এক্স)=2σ(2এক্স)-1

এখানে চিত্র বর্ণনা লিখুনএখানে চিত্র বর্ণনা লিখুন

বাম: রেকটিফাইড লিনিয়ার ইউনিট (আরএলইউ) অ্যাক্টিভেশন ফাংশন, যা শূন্য যখন x <0 এবং তারপরে slাল 1 সহ লিনিয়ার যখন x> 0. ডান: ক্রিজভেভস্কি এট আল এর একটি প্লট। (পিডিএফ) কাগজটি তান ইউনিটের তুলনায় রিলু ইউনিটের সাথে সংযোগের 6x উন্নতি নির্দেশ করে।

ReLU। সংশোধিত লিনিয়ার ইউনিট গত কয়েক বছরে খুব জনপ্রিয় হয়েছে। এটি ফাংশনটি গণনা করে । অন্য কথায়, অ্যাক্টিভেশনটি কেবল শূন্যের উপরে প্রসারিত হয় (উপরে বাম দিকে চিত্র দেখুন)। আরএলইউগুলি ব্যবহার করার জন্য বেশ কয়েকটি সুবিধা ও বিবাদ রয়েছে:(এক্স)=সর্বোচ্চ(0,এক্স)

  • (+) এটি সিগময়েড / তানহ ফাংশনের তুলনায় স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত রূপান্তরিত (উদাহরণস্বরূপ ক্রিজেভস্কি এট আল-তে 6 এর একটি ফ্যাক্টর) পাওয়া যায়নি rate যুক্তি দেওয়া হয় যে এটি লিনিয়ার, অ-স্যাচুরেটিং ফর্মের কারণে।
  • (+) তান / সিগময়েড নিউরনগুলির সাথে তুলনা করে যেগুলি ব্যয়বহুল ক্রিয়াকলাপগুলিতে জড়িত (এক্সপেনশনালস ইত্যাদি), শূন্যের উপরে একটি ক্রিয়াকলাপের কেবলমাত্র মৈত্রীকে প্রসারিত করেই আরএলইউ প্রয়োগ করা যেতে পারে।
  • (-) দুর্ভাগ্যক্রমে, আরএলইউ ইউনিট প্রশিক্ষণের সময় ভঙ্গুর হতে পারে এবং "মরতে" পারে। উদাহরণস্বরূপ, রিলু নিউরনের মধ্য দিয়ে প্রবাহিত একটি বৃহত গ্রেডিয়েন্ট ওজনকে এমনভাবে আপডেট করার কারণ হতে পারে যে নিউরন আর কোনও ডেটাপয়েন্টে আবার কখনও সক্রিয় হয় না। যদি এটি ঘটে থাকে তবে ইউনিটের মধ্য দিয়ে প্রবাহিত গ্রেডিয়েন্টটি সেই বিন্দু থেকে চিরতরে শূন্য হবে। এটি হ'ল, রিলু ইউনিটগুলি প্রশিক্ষণের সময় অপরিবর্তনীয়ভাবে মারা যেতে পারে যেহেতু তারা ডেটা বহুগুণ ছিটকে যেতে পারে। উদাহরণস্বরূপ, আপনি দেখতে পাবেন যে আপনার নেটওয়ার্কের 40% যতটা "মৃত" হতে পারে (যেমন নিউরনগুলি পুরো প্রশিক্ষণ ডেটাসেট জুড়ে কখনই সক্রিয় হয় না) যদি শেখার হার খুব বেশি সেট করা থাকে। শেখার হারের যথাযথ সেটিংয়ের সাথে এটি খুব কমই সমস্যা is

ফুটো রিলু ফাঁসানো রিএলইউগুলি "ডাইং রিলু" সমস্যাটি সমাধানের একটি প্রচেষ্টা। এক্স <0 হলে ফাংশনটি শূন্য হওয়ার পরিবর্তে একটি ফাঁসী রিলুতে একটি ছোট নেতিবাচক opeাল (0.01 বা তার বেশি) থাকবে। অর্থাৎ, ফাংশনটি যেখানে একটি ছোট ধ্রুবক। কিছু লোক সক্রিয়করণ ফাংশনের এই ফর্মটি দিয়ে সাফল্যের খবর দেয়, তবে ফলাফলগুলি সর্বদা সুসংগত হয় না। নেতিবাচক অঞ্চলের opeালও প্রতিটি নিউরনের একটি প্যারামিটার হিসাবে তৈরি করা যেতে পারে, যেমন প্রিলু নিউরনে দেখা যায়, ডেলিভিং ডিপ ইন রেকটিফায়ার-এ প্রবর্তিত , কাইমিং হিট এট আল, ২০১৫ দ্বারা। তবে, কার্যগুলি জুড়ে বেনিফিটের ধারাবাহিকতা বর্তমানে অস্পষ্ট।(এক্স)=1(এক্স<0)(αএক্স)+ +1(এক্স> =0)(এক্স)α

এখানে চিত্র বর্ণনা লিখুন

Maxout । অন্যান্য ধরণের ইউনিট প্রস্তাবিত হয়েছে যেগুলি ফাংশনাল ফর্ম যেখানে ওজন এবং ডেটার মধ্যে ডট পণ্যটিতে একটি অ-লিনিয়ারিটি প্রয়োগ করা হয়। একটি তুলনামূলকভাবে জনপ্রিয় পছন্দ হ'ল ম্যাক্সআউট নিউরন ( গুডফেলো এট আল দ্বারা সম্প্রতি প্রবর্তিত ) যা রেএলইউ এবং এর ফুটো সংস্করণকে সাধারণীকরণ করে। ম্যাক্সআউট নিউরনটি ফাংশনটি গণনা করে । লক্ষ্য করুন যে রিলু এবং লিকি রিএলইউ উভয়ই এই ফর্মের একটি বিশেষ কেস (উদাহরণস্বরূপ, রিলু জন্য আমাদের(Wটিএক্স+ +)সর্বোচ্চ(W1টিএক্স+ +1,W2টিএক্স+ +2)W1,1=0)। ম্যাকসআউট নিউরন তাই একটি আরএলইউ ইউনিট (অপারেশনের রৈখিক ব্যবস্থা, কোন স্যাচুরেশন) এর সমস্ত সুবিধা ভোগ করে এবং এর অসুবিধা (ডেইলিং ডায়ালু) নেই have তবে, আরএলইউ নিউরনের বিপরীতে এটি প্রতিটি একক নিউরনের জন্য পরামিতিগুলির সংখ্যাকে দ্বিগুণ করে, যার ফলে সর্বোচ্চ পরামিতিগুলির সংখ্যা বাড়ছে।

এটি আমাদের সর্বাধিক সাধারণ ধরণের নিউরন এবং তাদের সক্রিয়করণ কার্যাদি নিয়ে আলোচনা সমাপ্ত করে। একটি সর্বশেষ মন্তব্য হিসাবে, এটি করার ক্ষেত্রে কোনও মৌলিক সমস্যা না থাকলেও একই নেটওয়ার্কে বিভিন্ন ধরণের নিউরনগুলির মিশ্রণ এবং মেলা খুব বিরল।

টিএলডিআর : "আমার কোন নিউরনের ধরণটি ব্যবহার করা উচিত? " আরএলইউ অ-লাইনারিটি ব্যবহার করুন, আপনার শিক্ষার হারগুলি সম্পর্কে সতর্ক থাকুন এবং সম্ভবত কোনও নেটওয়ার্কে "মৃত" ইউনিটগুলির ভগ্নাংশ নিরীক্ষণ করুন। যদি এটি আপনার উদ্বেগ প্রকাশ করে তবে লিকি রিলু বা ম্যাকসআউটকে একবার চেষ্টা করুন। সিগময়েড কখনও ব্যবহার করবেন না। তানহ চেষ্টা করে দেখুন, তবে এটি আরএলইউ / ম্যাক্সআউট থেকে খারাপ কাজ করার আশা করে।


লাইসেন্স:


এমআইটি লাইসেন্স (এমআইটি)

কপিরাইট (সি) 2015 আন্দ্রেজ কার্পেটি

ব্যবহারের অনুলিপি, অনুলিপি, সংশোধন, মার্জ করার অধিকার সহ সীমাবদ্ধতা ছাড়াই এই সফ্টওয়্যার এবং সম্পর্কিত ডকুমেন্টেশন ফাইলগুলির ("সফ্টওয়্যার") অনুলিপি গ্রহণকারী যে কোনও ব্যক্তিকে বিনা মূল্যে অনুমতি দেওয়া হয়েছে the সফটওয়্যারটির অনুলিপি, প্রকাশ, বিতরণ, সাবিলেন্স, এবং / অথবা কপি বিক্রয় এবং এই সফ্টওয়্যারটি সরবরাহ করা ব্যক্তিকে নিম্নলিখিত শর্ত সাপেক্ষে অনুমতি দেওয়া:

উপরের কপিরাইট নোটিশ এবং এই অনুমতি বিজ্ঞপ্তিটি সমস্ত অনুলিপি বা সফ্টওয়্যারটির মূল অংশগুলিতে অন্তর্ভুক্ত থাকবে।

সফটওয়্যারটি "যেমন রয়েছে", কোনও ধরণের গ্যারান্টি ছাড়াই প্রকাশিত বা প্রয়োগ করা হয়েছে, তবে মার্চেন্টেবিলিটির সীমাবদ্ধ নয় তবে একটি বিশেষ উদ্দেশ্য এবং অর্থোপার্জনের জন্য ফিটনেস রয়েছে। সফ্টওয়্যার বা সফ্টওয়্যার বা সংস্থার মাধ্যমে বা চুক্তি বা অন্য যে কোনও চুক্তির কোনও পদক্ষেপ, ক্ষতি বা অন্য দায়বদ্ধতার জন্য কোনও দাবি বা কপিরাইটধারীরা কোনও দাবি, ক্ষয়ক্ষতি বা অন্য দায়বদ্ধতার জন্য দায়বদ্ধ থাকবেন না সফটওয়্যার.*


ধন্যবাদ, এই সংক্ষিপ্তসারটি কিছুটা অন্তর্দৃষ্টি দেয়, তবে, সত্যই, আমি এখনও স্বজ্ঞাতভাবে কিছু বিশদটি জানতে পারি না (উদাহরণস্বরূপ কেন এলএলইউ "এসজিডি রূপান্তরকে ব্যাপকভাবে ত্বরান্বিত করে") এবং সর্বোপরি: কোনটি নির্বাচন করবেন? উপসংহারের ভিত্তিতে, ম্যাক্সআউট সেরা এবং এটি এর শেষ। তবে ম্যাক্সআউট সর্বাধিক জনপ্রিয় প্যাকেজগুলিতে প্রয়োগ করা হয়নি (উদাহরণস্বরূপ কেরাসে), এটি আমার পক্ষে যুক্তিসঙ্গত বলে মনে হয় যে অন্তত শেষ স্তরে অন্যান্য ধরণের স্থাপন করা উচিত (উদাহরণস্বরূপ দ্বি শ্রেণীর জন্য সিগময়েড)।
হেন্ডরিক 8
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.