পেশাদার / বিঘ্নের সাথে স্নায়ু নেটওয়ার্কগুলিতে অ্যাক্টিভেশন ফাংশনের বিস্তৃত তালিকা


94

এমন কোনও রেফারেন্স ডকুমেন্ট (গুলি) রয়েছে যা তাদের উপকার / কনস (এবং আদর্শভাবে কিছু প্রকাশনা যেখানে তারা সফল হয়েছিল বা এতো সফল ছিল না) সহ স্নায়বিক নেটওয়ার্কগুলিতে অ্যাক্টিভেশন ফাংশনগুলির একটি বিস্তৃত তালিকা দেয়?


আমি এএনএন সম্পর্কে পর্যাপ্ত পরিমাণে জানি না, তবে অ্যাক্টিভেশন ফাংশনগুলি আকারে যথেষ্ট পরিমাণে পৃথক না হলে এগুলি আলাদা করে বলা খুব কঠিন হবে। অভিন্ন পরিস্থিতি নিয়ে আলোচনার জন্য আপনি আমার উত্তরটি এখানে দেখতে পেলেন: লগইট এবং প্রবিট মডেলগুলির মধ্যে পার্থক্য
গাং

1
না, এটি বেশ বড় পার্থক্য করে।
উইলিয়ামি

en.wikedia.org/wiki/Activation_function একটি ভাল সম্পদ; আপনি আরও অনেক কিছু ব্যবহার করতে পারেন, সহ sin(x)দেখুন openreview.net/pdf?id=Sks3zF9eg
পাইটর মিগডাল

অ্যাক্টিভেশন ফাংশন সম্পর্কিত ভিডিও টিউটোরিয়ালের জন্য, এখানে যান: quickkt.com
বিনয় কুমার

উত্তর:


143

আমি এ পর্যন্ত যা শিখেছি তাদের এখানে একটি তালিকা তৈরি করা শুরু করব। @ মার্কোডেনা যেমন বলেছিলেন, উপকার ও বিবাদগুলি আরও কঠিন কারণ এটি বেশিরভাগ ক্ষেত্রে কেবল এই বিষয়গুলি ব্যবহার করে শেখা হয়েছে, তবে আমি কমপক্ষে তাদের ক্ষতি করতে পারে না তার একটি তালিকা রয়েছে বলে মনে করি।

প্রথমে আমি স্বরলিপিটি স্পষ্টভাবে সংজ্ঞায়িত করব যাতে কোনও বিভ্রান্তি নেই:

স্বরলিপি

এই স্বরলিপিটি নীলসেনের বই থেকে এসেছে ।

একটি ফিডফর্ডার নিউরাল নেটওয়ার্ক হ'ল নিউরনের অনেক স্তর এক সাথে সংযুক্ত। এটি একটি ইনপুট নেয়, তারপরে সেই ইনপুটটি নেটওয়ার্কের মাধ্যমে "ট্রিকলস" করে এবং নিউরাল নেটওয়ার্ক কোনও আউটপুট ভেক্টরকে ফেরত দেয়।

আরো আনুষ্ঠানিকভাবে, কল সক্রিয়তার (আউটপুট ওরফে) মধ্যে স্নায়ুর স্তর, যেখানে হয় ইনপুট ভেক্টর মধ্যে উপাদান। j t h i t h a 1 j j t hajijthithaj1jth

তারপরে আমরা নিম্নলিখিত স্তরের ইনপুটটিকে নীচের সম্পর্কের মাধ্যমে পূর্বের সাথে সম্পর্কিত করতে পারি:

aji=σ(k(wjkiaki1)+bji)

কোথায়

  • σ হ'ল অ্যাক্টিভেশন ফাংশন,
  • k t h ( i - 1 ) t h j t h i t hwjki থেকে ওজন মধ্যে স্নায়ুর স্তর মধ্যে স্নায়ুর স্তর,kth(i1)thjthith
  • j t h i t hbji হ'ল স্তরের নিউরনের পক্ষপাত , এবংjthith
  • j t h i t haji স্তরটিতে নিউরনের সক্রিয়করণ মানকে উপস্থাপন করে ।jthith

কখনও কখনও আমরা লিখি উপস্থাপন করতে , অন্য কথায়, অ্যাক্টিভেশন ফাংশন প্রয়োগ করার আগে একটি নিউরনের সক্রিয়করণ মান ।k ( w i j ka i - 1 k ) + b i jzjik(wjkiaki1)+bji

এখানে চিত্র বর্ণনা লিখুন

আরও সংক্ষিপ্ত স্বরলিপি জন্য আমরা লিখতে পারেন

ai=σ(wi×ai1+bi)

কিছু ইনপুটের জন্য ফিডফোর্ড নেটওয়ার্কের আউটপুট গণনা করতে এই সূত্রটি ব্যবহার করতে , set সেট করুন , তারপরে , গণনা করুন যেখানে স্তরগুলির সংখ্যা।a 1 = I a 2 , a 3 , , a m mIRna1=Ia2,a3,,amm

অ্যাক্টিভেশন ফাংশন

(নীচে, আমরা পাঠযোগ্যতার জন্য পরিবর্তে লিখব )xexp(x)ex

পরিচয়

লিনিয়ার অ্যাক্টিভেশন ফাংশন হিসাবেও পরিচিত।

aji=σ(zji)=zji

পরিচয়

ধাপ

aji=σ(zji)={0if zji<01if zji>0

ধাপ

টুকরা টুকরা করে সাজানো

কিছু এবং , এটি আমাদের "সীমা"। এই ব্যাপ্তির চেয়ে কম পরিমাণে 0 হবে এবং এই ব্যাপ্তির চেয়ে বড় কিছু হবে 1 এবং অন্য যে কোনও কিছুই এর মধ্যে রৈখিকভাবে-বিভক্ত হয়। আনুষ্ঠানিকভাবে:xminxmax

aji=σ(zji)={0if zji<xminmzji+bif xminzjixmax1if zji>xmax

কোথায়

m=1xmaxxmin

এবং

b=mxmin=1mxmax

টুকরা টুকরা করে সাজানো

সিগমা

aji=σ(zji)=11+exp(zji)

সিগমা

পরিপূরক লগ-লগ

aji=σ(zji)=1exp(exp(zji))

পরিপূরক লগ-লগ

দ্বিমেরু

aji=σ(zji)={1if zji<0   1if zji>0

দ্বিমেরু

বাইপোলার সিগময়েড

aji=σ(zji)=1exp(zji)1+exp(zji)
বাইপোলার সিগময়েড

TANH

aji=σ(zji)=tanh(zji)

TANH

লেকুনের তানহ

দক্ষ ব্যাকপ্রপ দেখুন ।

aji=σ(zji)=1.7159tanh(23zji)

লেকুনের তানহ

স্কেল:

লেকুনের তান স্কেলড

শক্ত তানহ

aji=σ(zji)=max(1,min(1,zji))

শক্ত তানহ

পরম

aji=σ(zji)=∣zji

পরম

সংশোধক

রেকটিফায়েড লিনিয়ার ইউনিট (আরএলইউ), সর্বোচ্চ, বা র‌্যাম্প ফাংশন নামেও পরিচিত ।

aji=σ(zji)=max(0,zji)

সংশোধক

ReLU এর পরিবর্তনসমূহ

এগুলি এমন কিছু অ্যাক্টিভেশন ফাংশন যা আমি খেলছিলাম যা মনে হয় রহস্যজনক কারণে এমএনআইএসটির পক্ষে খুব ভাল পারফরম্যান্স পেয়েছে।

aji=σ(zji)=max(0,zji)+cos(zji)

রিলু কোস

স্কেল:

রিলু কোস স্কেলড

aji=σ(zji)=max(0,zji)+sin(zji)

রিলু পাপ

স্কেল:

রিলু পাপ মাপা হয়েছে

স্মুথ রেকটিফায়ার

স্মুথ রেকটিফাইড লিনিয়ার ইউনিট, স্মুথ ম্যাক্স বা সফট প্লাস নামেও পরিচিত

aji=σ(zji)=log(1+exp(zji))

স্মুথ রেকটিফায়ার

Logit

aji=σ(zji)=log(zji(1zji))

Logit

স্কেল:

লগিট স্কেলড

Probit

aji=σ(zji)=2erf1(2zji1)

কোথায় হয় ত্রুটি ফাংশন । এটি প্রাথমিক ফাংশনগুলির মাধ্যমে বর্ণনা করা যায় না, তবে আপনি এটি উইকিপিডিয়া পৃষ্ঠায় এবং এখানে এর বিপরীতটি প্রায় নিকটবর্তী করার উপায়গুলি খুঁজে পেতে পারেন ।erf

বিকল্পভাবে, এটি হিসাবে প্রকাশ করা যেতে পারে

aji=σ(zji)=ϕ(zji)

যেখানে হ'ল সংযুক্তি বিতরণ ফাংশন (সিডিএফ)। এটি প্রায় অনুমান করার জন্য এখানে দেখুন ।ϕ

Probit

স্কেল:

প্রবিট স্কেলড

কোসাইন্

দেখুন র্যান্ডম রান্নাঘর সিংক

aji=σ(zji)=cos(zji)

কোসাইন্

Softmax

নর্মালাইজড এক্সপেনশনিয়াল হিসাবেও পরিচিত।

aji=exp(zji)kexp(zki)

এটি একটি সামান্য অদ্ভুত কারণ একক নিউরনের আউটপুট সেই স্তরের অন্যান্য নিউরনের উপর নির্ভরশীল। এটি গণনা করাও শক্ত হয়ে যায়, কারণ খুব উচ্চ মানের হতে পারে, সম্ভবত উপচে পড়বে। , যদি খুব কম মান হয় তবে এটি হবে এবং ।zjiexp(zji)zji0

এটির বিরুদ্ধে লড়াই করতে আমরা পরিবর্তে গণনা করব । এটি আমাদের দেয়:log(aji)

log(aji)=log(exp(zji)kexp(zki))

log(aji)=zjilog(kexp(zki))

এখানে আমাদের লগ-সম-এক্সপ্রেস ট্রিকটি ব্যবহার করতে হবে :

ধরা যাক আমরা গণনা করছি:

log(e2+e9+e11+e7+e2+e5)

আমরা সুবিধার জন্য প্রথমে আমাদের ক্ষয়ক্ষতিগুলি বাছাই করব:

log(e11+e9+e5+e2+e2+e7)

তারপরে, যেহেতু আমাদের সর্বোচ্চ, তাই আমরা :e11e11e11

log(e11e11(e11+e9+e5+e2+e2+e7))

log(1e11(e0+e2+e6+e9+e13+e18))

log(e11(e0+e2+e6+e9+e13+e18))

log(e11)+log(e0+e2+e6+e9+e13+e18)

11+log(e0+e2+e6+e9+e13+e18)

তারপরে আমরা ডানদিকে অভিব্যক্তিটি গণনা করতে এবং এর লগ নিতে পারি। এটি করা ঠিক আছে কারণ sum সাথে যোগফল খুব সামান্য , সুতরাং 0 তে কোনও আন্ডারফ্লো যেভাবেই কোনও পার্থক্য তৈরি করার পক্ষে যথেষ্ট তাৎপর্যপূর্ণ না হত। ডানদিকে অভিব্যক্তিতে ওভারফ্লো ঘটতে পারে না কারণ আমরা গ্যারান্টিযুক্ত যে by দ্বারা গুণ করার পরে সমস্ত শক্তি ।log(e11)e110

সাধারণত, আমরা । তারপর:m=max(z1i,z2i,z3i,...)

log(kexp(zki))=m+log(kexp(zkim))

আমাদের সফটম্যাক্স ফাংশনটি তখন পরিণত হয়:

aji=exp(log(aji))=exp(zjimlog(kexp(zkim)))

সাইডেনোট হিসাবে, সফটম্যাক্স ফাংশনের ডেরাইভেটিভ হ'ল:

dσ(zji)dzji=σ(zji)=σ(zji)(1σ(zji))

সর্বোচ্চ আউট

এটি একটি খুব কৌশলযুক্ত। মূলত ধারণাটি হ'ল আমরা আমাদের ম্যাক্সআউট লেয়ারের প্রতিটি নিউরনকে প্রচুর সাব-নিউরনগুলিতে বিভক্ত করি, যার প্রত্যেকটির নিজস্ব ওজন এবং বায়াস রয়েছে। তারপরে নিউরনের ইনপুটটি এর পরিবর্তে এর প্রতিটি সাব-নিউরনগুলিতে যায় এবং প্রতিটি উপ-নিউরন কেবল তাদের এর (কোনও অ্যাক্টিভেশন ফাংশন প্রয়োগ না করে) আউটপুট করে । যে স্নায়ুর তাহলে সব তার উপ-স্নায়ুর এর আউটপুট সর্বোচ্চ।zaji

আনুষ্ঠানিকভাবে, একক নিউরনে, বলুন আমাদের সাব-নিউরন রয়েছে। তারপরn

aji=maxk[1,n]sjki

কোথায়

sjki=ai1wjki+bjki

( হয় ডট পণ্য )

আমাদের এই সম্পর্কে চিন্তা সাহায্য করার জন্য, ওজন ম্যাট্রিক্স বিবেচনা জন্য একটি স্নায়ুর নেটওয়ার্ক যে ব্যবহার করছে, বলে, একটি সিগমা অ্যাক্টিভেশন ফাংশন স্তর। একটি 2 ডি ম্যাট্রিক্স, যেখানে প্রতিটি কলামের হয় স্নায়ুর জন্য একটি ভেক্টর হয় পূর্ববর্তী স্তর প্রতিটি স্নায়ুর জন্য একটি ওজন ধারণকারী ।WiithWiWjiji1

যদি আমাদের উপ-নিউরন থাকতে চলেছে তবে প্রতিটি নিউরনের জন্য আমাদের 2 ডি ওজন ম্যাট্রিক্স প্রয়োজন, যেহেতু প্রতিটি উপ-নিউরনের পূর্ববর্তী স্তরের প্রতিটি নিউরনের জন্য একটি ওজনযুক্ত ভেক্টরের প্রয়োজন হবে। এর অর্থ হ'ল এখন 3 ডি ওয়েট ম্যাট্রিক্স, যেখানে প্রতিটি একক নিউরোন এর 2D ওজন ম্যাট্রিক্স । এবং তারপরে হ'ল নিউরন সাব-নিউরন -এর জন্য একটি ভেক্টর যা পূর্ববর্তী স্তর প্রতিটি নিউরনের জন্য একটি ওজন ধারণ করে ।WiWjijWjkikji1

অনুরূপভাবে, একটি স্নায়ুর নেটওয়ার্ক যে আবার ব্যবহার করে, বলুন, একটি সিগমা অ্যাক্টিভেশন ফাংশনে, একটি পক্ষপাত সঙ্গে একটি ভেক্টর হয় প্রতিটি স্নায়ুর জন্য স্তরে ।bibjiji

উপ-নিউরোন সঙ্গে এই কাজ করার জন্য, আমরা একটি 2 ডি পক্ষপাত ম্যাট্রিক্স প্রয়োজন প্রতিটি স্তরের , যেখানে জন্য একটি পক্ষপাত সঙ্গে ভেক্টর হয় প্রতিটি subneuron মধ্যে । নিউরনbiibjibjkikjth

একটি ওজন ম্যাট্রিক্স হচ্ছে এবং একটি পক্ষপাত ভেক্টর জন্য প্রতিটি স্নায়ুর তারপর খুব পরিষ্কার উপরে এক্সপ্রেশন করে তোলে, এটি সহজভাবে প্রতিটি উপ-স্নায়ুর এর ওজন প্রয়োগ হচ্ছে আউটপুট থেকে স্তরটি করুন , তারপরে তাদের বায়াসগুলি applying প্রয়োগ করুন এবং সেগুলি সর্বাধিক গ্রহণ করুন।wjibjiwjkiai1i1bjki

রেডিয়াল বেসিস ফাংশন নেটওয়ার্কগুলি

রেডিয়াল বেসিস ফাংশন নেটওয়ার্কগুলি হ'ল ফিডফোর্ড নিউরাল নেটওয়ার্কগুলির একটি পরিবর্তন, যেখানে ব্যবহারের পরিবর্তে

aji=σ(k(wjkiaki1)+bji)

পূর্ববর্তী স্তরে নোড (স্বাভাবিক হিসাবে) এর সাথে আমাদের একটি ওজন have প্রতিটি নোডের জন্য একটি গড় ভেক্টর এবং একটি স্ট্যান্ডার্ড বিচ্যুতি ভেক্টর রয়েছে পূর্ববর্তী স্তরwjkikμjkiσjki

তারপর আমরা আমাদের অ্যাক্টিভেশন ফাংশন কল এটা স্ট্যানডার্ড ডেভিয়েশন ভেক্টর সাথে গুলিয়ে ফেলা চলবে পেয়ে এড়াতে । এখন গণনা করার জন্য আমাদের পূর্ববর্তী স্তরের প্রতিটি নোডের জন্য প্রথমে একটি গণনা করতে হবে । একটি বিকল্প হ'ল ইউক্লিডিয়ান দূরত্ব ব্যবহার করা:ρσjkiajizjki

zjki=(ai1μjki=(ai1μjki)2

কোথায় হয় উপাদান । এই এক ব্যবহার করে না । বিকল্পভাবে মহালানোবিস দূরত্ব রয়েছে, যা সম্ভবত আরও ভাল সম্পাদন করে:μjkithμjkiσjki

zjki=(ai1μjki)TΣjki(ai1μjki)

যেখানে the হল সমবায় ম্যাট্রিক্স , এটি হিসাবে সংজ্ঞায়িত:Σjki

Σjki=diag(σjki)

অন্য কথায়, হ'ল তির্যক উপাদান হিসাবে with সহ তির্যক ম্যাট্রিক্স । আমরা এখানে এবং column কলামের ভেক্টর হিসাবে সংজ্ঞায়িত কারণ এটি সাধারণত ব্যবহৃত হয় এমন স্বরলিপি।Σjkiσjkiai1μjki

এগুলি সত্যিই বলছে যে মহালানোবিসের দূরত্ব হিসাবে সংজ্ঞায়িত করা হয়েছে

zjki=(ai1μjki)2σjki

কোথায় হয় উপাদান । মনে রাখবেন যে অবশ্যই সর্বদা ধনাত্মক হতে হবে, তবে এটি স্ট্যান্ডার্ড বিচ্যুতির জন্য একটি সাধারণ প্রয়োজন তাই এটি আশ্চর্যজনক নয়।σjkithσjkiσjki

যদি ইচ্ছা হয় তবে মহালানোবিসের দূরত্বটি যথেষ্ট সাধারণ যে কোভরিয়েন্স ম্যাট্রিক্স other অন্যান্য ম্যাট্রিক হিসাবে সংজ্ঞায়িত করা যায়। উদাহরণস্বরূপ, যদি কোভেরিয়েন্স ম্যাট্রিক্স পরিচয় ম্যাট্রিক্স হয় তবে আমাদের মহালানোবিস দূরত্ব ইউক্লিডিয়ান দূরত্বকে হ্রাস করে। যদিও বেশ সাধারণ, এবং এটি সাধারণত ইউক্যালিডিয়ান দূরত্ব হিসাবে পরিচিত ।ΣjkiΣjki=diag(σjki)

যেভাবেই হোক, একবার আমাদের দূরত্বের ফাংশনটি চয়ন করা হয়ে গেলে আমরা মাধ্যমে গণনা করতে পারিaji

aji=kwjkiρ(zjki)

এই নেটওয়ার্কগুলিতে তারা কারণে অ্যাক্টিভেশন ফাংশন প্রয়োগ করার পরে ওজন দিয়ে গুণ করতে পছন্দ করে।

এটি বর্ণনা করে যে কীভাবে একটি মাল্টি-লেয়ার রেডিয়াল বেসিস ফাংশন নেটওয়ার্ক তৈরি করা যায়, তবে সাধারণত এই নিউরোনগুলির মধ্যে কেবল একটি থাকে এবং এর আউটপুটটি নেটওয়ার্কের আউটপুট। এটি একাধিক নিউরন হিসাবে আঁকা কারণ প্রতিটি গড় ভেক্টর এবং সেই একক নিউরনের প্রতিটি স্ট্যান্ডার্ড বিচ্যুতি ভেক্টর একটি "নিউরন" হিসাবে বিবেচনা করা হয় এবং তারপরে এই ফলাফলগুলির পরে আরও একটি স্তর রয়েছে এটি উপরের মতো ওজনের তুলনায় এই মানের মানগুলি যোগ করে । এটিকে শেষে "সংমিশ্রণকারী" ভেক্টর দিয়ে দুটি স্তরে বিভক্ত করা আমার কাছে অদ্ভুত বলে মনে হয় তবে তারা এটি করে।μjkiσjkiaji

এছাড়াও এখানে দেখুন

রেডিয়াল বেসিস ফাংশন নেটওয়ার্ক অ্যাক্টিভেশন ফাংশন

গসিয়ান

ρ(zjki)=exp(12(zjki)2)

গসিয়ান

Multiquadratic

কিছু পয়েন্ট । তারপরে আমরা থেকে দূরত্ব গণনা করব :(x,y)(zji,0)(x,y)

ρ(zjki)=(zjkix)2+y2

এটি উইকিপিডিয়া থেকে । এটি সীমাবদ্ধ নয় এবং এটি কোনও ইতিবাচক মান হতে পারে, যদিও আমি ভাবছি যে এটির স্বাভাবিক করার কোনও উপায় আছে কিনা।

যখন , এটি নিখুঁত (অনুভূমিক শিফট ) এর সমান ।y=0x

Multiquadratic

বিপরীত বহুভুজ

চতুর্ভুজ হিসাবে একই, উল্টানো ছাড়া:

ρ(zjki)=1(zjkix)2+y2

বিপরীত বহুভুজ

* এসভিজি ব্যবহার করে অন্তঃকরণের গ্রাফগুলি থেকে গ্রাফিক্স ।


11
সিভিতে আপনাকে স্বাগতম। +6 এটি চমত্কারভাবে তথ্যবহুল। আমি আশা করি আমরা ভবিষ্যতে এর মতো আরও কিছু দেখতে পাব।
গাং

1
ফর্ম এবং প্রবাইটের মসৃণ সংশোধনযোগ্য রৈখিক কার্য রয়েছে । log(1+exp(x))
শে

ঠিক আছে, আমি মনে করি আমি লজিট, প্রবিট এবং পরিপূরক লগ-লগ যুক্ত করেছি, তবে এই বিষয়গুলির সম্পর্কে আমার গভীর ধারণা নেই, তাই আমি তাদের লিখিত ফর্মটি ভুল বুঝে থাকতে পারি। এটা কি সঠিক?
ফিলিইডা

3
রেফারেন্সের একটি দুর্দান্ত তালিকা সহ এটি একটি আকর্ষণীয় কাগজ হবে। উদাহরণস্বরূপ arxiv.org/abs/1505.03654 । আপনি যদি কোনও কাগজ লেখার সিদ্ধান্ত নেন এবং অন্য উল্লেখ চান তবে নির্দ্বিধায় আমার সাথে যোগাযোগ করুন।
হুনাফু

9
কারও উচিত এটি এলু, লিকি রিলু, প্রেলু এবং আরআরলু দিয়ে আপডেট করুন।
উইলিয়ামি

24

তেমন একটি তালিকা খুব বেশি পরিশ্রমী না হলেও: http://cs231n.github.io/neural-networks-1/

অ্যাক্টিভেশন ফাংশন সাধারণত ব্যবহৃত হয়

প্রতিটি অ্যাক্টিভেশন ফাংশন (বা অ-লিনিয়ারিটি ) একটি একক সংখ্যা নেয় এবং এটিতে নির্দিষ্ট নির্দিষ্ট গাণিতিক অপারেশন করে। অনুশীলনে আপনার মুখোমুখি হতে পারে এমন বেশ কয়েকটি অ্যাক্টিভেশন ফাংশন রয়েছে:

এখানে চিত্র বর্ণনা লিখুনএখানে চিত্র বর্ণনা লিখুন

বাম: সিগময়েড অ-লিনিয়ারিটি প্রকৃত সংখ্যাগুলি মধ্যে বিস্তৃত হতে পারে [0,1] ডান: তানহ অ-লিনিয়ারটি আসল সংখ্যাগুলিকে [-1,1] এর মধ্যে বিস্তৃত করে squ

সিগমা। সিগময়েড অ-লিনিয়ারিটির গাণিতিক রূপ এবং উপরের চিত্রটিতে বাম দিকে প্রদর্শিত হয়। পূর্ববর্তী বিভাগে ইঙ্গিত হিসাবে, এটি একটি আসল মূল্যবান সংখ্যা নেয় এবং "স্কোয়াশেস" এটি 0 এবং 1 এর মধ্যে সীমাতে চলে আসে In যেহেতু এটির নিউরনের ফায়ারিং হার হিসাবে একটি দুর্দান্ত ব্যাখ্যা রয়েছে: একেবারে (0) গুলি করা থেকে শুরু করে ধরে নেওয়া সর্বাধিক ফ্রিকোয়েন্সি (1) এ পুরোপুরি স্যাচুরেটেড ফায়ারিং পর্যন্ত নয়। অনুশীলনে, সিগময়েড অ-লিনিয়ারিটি সম্প্রতি পক্ষে নেমে গেছে এবং এটি খুব কমই ব্যবহৃত হয়। এটির দুটি প্রধান ত্রুটি রয়েছে:σ(x)=1/(1+ex)

  • সিগময়েডগুলি গ্রেডিয়েন্টগুলি পরিপূর্ণ করে এবং হত্যা করে । সিগময়েড নিউরনের একটি খুব অযাচিত সম্পত্তি হ'ল নিউরনের অ্যাক্টিভেশন যখন 0 বা 1 এর উভয় পুচ্ছতে স্যাটারেট হয়ে যায় তখন এই অঞ্চলগুলির গ্রেডিয়েন্ট প্রায় শূন্য হয়। মনে রাখবেন যে ব্যাকপ্রসাগরণের সময়, এই (স্থানীয়) গ্রেডিয়েন্টটি পুরো উদ্দেশ্যটির জন্য এই গেটের আউটপুটটির গ্রেডিয়েন্টে গুণ করা হবে। অতএব, যদি স্থানীয় গ্রেডিয়েন্ট খুব ছোট হয় তবে এটি গ্রেডিয়েন্টকে কার্যকরভাবে "হত্যা" করবে এবং নিউরনের মধ্য দিয়ে তার ওজনে প্রায় কোনও সংকেত প্রবাহিত হবে না এবং তার তথ্যগুলিতে পুনরাবৃত্তভাবে প্রবাহিত হবে। অতিরিক্তভাবে, স্যাচুরেশন প্রতিরোধের জন্য সিগময়েড নিউরনের ওজন সূচনা করার সময় এক অতিরিক্ত অতিরিক্ত সাবধানতা অবলম্বন করতে হবে। উদাহরণস্বরূপ, যদি প্রাথমিক ওজন খুব বেশি হয় তবে বেশিরভাগ নিউরন স্যাচুরেটেড হয়ে যায় এবং নেটওয়ার্ক সবেই শিখবে।
  • সিগময়েড আউটপুটগুলি শূন্য-কেন্দ্রিক নয় । এটি অনাকাঙ্ক্ষিত যেহেতু নিউরালনগুলি পরে নিউরাল নেটওয়ার্কে প্রসেসিংয়ের পরবর্তী স্তরগুলিতে (খুব শীঘ্রই এটি সম্পর্কে আরও) ডেটা প্রাপ্ত হবে যা শূন্য-কেন্দ্রিক নয়। এই গ্রেডিয়েন্ট বংশদ্ভুত সময় গতিবিদ্যা উপর বিষয় রয়েছে সবসময় ইতিবাচক কারণ তথ্য একটি স্নায়ুর উদ্ভেদ (যেমন মধ্যে elementwise )), তারপর ওজন উপর গ্রেডিয়েন্ট backpropagation সময় ইচ্ছা পারেন পরিণত সমস্ত ধনাত্মক, বা সমস্ত নেতিবাচক (সম্পূর্ণ এক্সপ্রেশন গ্রেডিয়েন্ট উপর নির্ভর করে x>0f=wTx+bwf)। এটি ওজনের জন্য গ্রেডিয়েন্ট আপডেটগুলিতে অযাচিত জিগ-জাগিং গতিশীলতার পরিচয় দিতে পারে। তবে খেয়াল করুন যে একবার এই গ্রেডিয়েন্টগুলি উপাত্তের একটি ব্যাচ জুড়ে যুক্ত করা গেলে ওজনের চূড়ান্ত আপডেটে ভেরিয়েবল চিহ্ন থাকতে পারে, কিছুটা এই সমস্যাটিকে প্রশমিত করে। অতএব, এটি একটি অসুবিধা হলেও উপরের স্যাচুরেটেড অ্যাক্টিভেশন সমস্যার তুলনায় এর কম গুরুতর পরিণতি হয়েছে।

TANH। তানহ অ-লিনিয়ারটি ডানদিকে উপরের চিত্রটিতে প্রদর্শিত হয়। এটি একটি আসল-মূল্যবান সংখ্যাকে [-1, 1] এর ব্যাপ্তিতে স্কোয়াশ করে। সিগময়েড নিউরনের মতো, এর ক্রিয়াকলাপগুলি পরিপূর্ণ হয় তবে সিগময়েড নিউরনের বিপরীতে এর আউটপুট শূন্য-কেন্দ্রিক। অতএব, অনুশীলনে তানহ অ-লিনিয়ারিটি সর্বদা সিগময়েড ননলাইনারের চেয়ে বেশি পছন্দ করা হয়। এছাড়াও নোট করুন যে তানহ নিউরনটি কেবল একটি স্কেলড সিগময়েড নিউরন, বিশেষত নিম্নলিখিতটি ধারণ করে: ।tanh(x)=2σ(2x)1

এখানে চিত্র বর্ণনা লিখুনএখানে চিত্র বর্ণনা লিখুন

বাম: রেকটিফাইড লিনিয়ার ইউনিট (রিলিজ) অ্যাক্টিভেশন ফাংশন, যা শূন্য যখন x <0 এবং তারপরে লাইন 1 এর সাথে xাল যখন x> 0. ডান: ক্রিজভেভস্কি এট আল এর একটি প্লট। (পিডিএফ) কাগজটি তান ইউনিটের তুলনায় রেএলইউ ইউনিটের সাথে সংযোগের 6x উন্নতি নির্দেশ করে।

ReLU। সংশোধিত লিনিয়ার ইউনিট গত কয়েক বছরে খুব জনপ্রিয় হয়েছে। এটি ফাংশনটি গণনা করে । অন্য কথায়, অ্যাক্টিভেশনটি কেবল শূন্যের উপরে প্রসারিত হয় (বাম দিকে চিত্র দেখুন)। আরএলইউগুলি ব্যবহার করার জন্য বেশ কয়েকটি সুবিধা ও বিধি রয়েছে:f(x)=max(0,x)

  • (+) এটি সিগময়েড / তানহ ফাংশনের তুলনায় স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত রূপান্তরিত (উদাহরণস্বরূপ ক্রিজেভস্কি এট আল-তে 6 এর একটি উপাদান) পাওয়া গেল । যুক্তিযুক্ত যে এটি এর লিনিয়ার, অ-স্যাচুরেটিং ফর্মের কারণে।
  • (+) তান / সিগময়েড নিউরনগুলির সাথে তুলনা করে যেগুলি ব্যয়বহুল ক্রিয়াকলাপগুলিতে জড়িত (এক্সপেনশনিয়ালস ইত্যাদি), রিলু কেবলমাত্র শূন্যের উপর একটি ক্রিয়াকলাপের ম্যাট্রিক্সকে প্রসারিত করে প্রয়োগ করা যেতে পারে।
  • (-) দুর্ভাগ্যক্রমে, আরএলইউ ইউনিট প্রশিক্ষণের সময় ভঙ্গুর হতে পারে এবং "মরতে" পারে। উদাহরণস্বরূপ, একটি আরএলইউ নিউরনের মধ্য দিয়ে প্রবাহিত একটি বৃহত গ্রেডিয়েন্ট ওজনকে এমনভাবে আপডেট করার কারণ হতে পারে যে নিউরন আর কোনও ডেটাপয়েন্টে আবার কখনও সক্রিয় হয় না। যদি এটি ঘটে থাকে তবে ইউনিটের মধ্য দিয়ে প্রবাহিত গ্রেডিয়েন্টটি সেই বিন্দু থেকে চিরতরে শূন্য হবে। এটি হ'ল, রিলু ইউনিটগুলি প্রশিক্ষণের সময় অপরিবর্তনীয়ভাবে মারা যেতে পারে যেহেতু তারা ডেটা বহুগুণ ছিটকে যেতে পারে। উদাহরণস্বরূপ, আপনি যদি জানতে পারেন যে আপনার নেটওয়ার্কের প্রায় 40% "মৃত" হতে পারে (যেমন নিউরনগুলি পুরো প্রশিক্ষণ ডেটাসেট জুড়ে কখনই সক্রিয় হয় না) যদি শেখার হার খুব বেশি সেট করা থাকে। শেখার হারের যথাযথ সেটিংয়ের সাথে এটি খুব কমই একটি সমস্যা।

ফুটো রিলু ফাঁসানো রিলু হ'ল "ডাইং রিলু" সমস্যাটি সমাধানের একটি প্রচেষ্টা one X <0 হলে ফাংশনটি শূন্য হওয়ার পরিবর্তে একটি ফাঁসী রিলুতে একটি ছোট নেতিবাচক opeাল (0.01 বা তার বেশি) থাকবে have অর্থাৎ, ফাংশনটি যেখানে একটি ছোট ধ্রুবক। কিছু লোক সক্রিয়করণ ফাংশনের এই ফর্মটি দিয়ে সাফল্যের খবর দেয়, তবে ফলাফলগুলি সর্বদা সুসংগত হয় না। নেতিবাচক অঞ্চলের opeালও প্রতিটি নিউরনের একটি প্যারামিটার হিসাবে তৈরি করা যেতে পারে, যেমন প্রিলু নিউরনে দেখা যায়, ডেলিভিং ডিপ ইন রেকটিফায়ার-এ প্রবর্তিত , কাইমিং হিট এট আল, ২০১৫ দ্বারা। তবে, কার্যগুলি জুড়ে বেনিফিটের ধারাবাহিকতা বর্তমানে অস্পষ্ট।f(x)=1(x<0)(αx)+1(x>=0)(x)α

এখানে চিত্র বর্ণনা লিখুন

Maxout । অন্যান্য ধরণের ইউনিট প্রস্তাবিত হয়েছে যেগুলি ফাংশনাল ফর্ম যেখানে ওজন এবং ডেটার মধ্যে ডট পণ্যটিতে একটি অ-লিনিয়ারিটি প্রয়োগ করা হয়। একটি অপেক্ষাকৃত জনপ্রিয় পছন্দ হ'ল ম্যাক্সআউট নিউরন ( গুডফেলো এট আল দ্বারা সম্প্রতি প্রবর্তিত ) যা রেএলইউ এবং এর ফুটো সংস্করণকে সাধারণীকরণ করে। ম্যাক্সআউট নিউরন ফাংশনটি । লক্ষ্য করুন যে রিলু এবং লিকি রিএলইউ উভয়ই এই ফর্মের একটি বিশেষ কেস (উদাহরণস্বরূপ, রিলু জন্য আমাদেরf(wTx+b)max(w1Tx+b1,w2Tx+b2)w1,b1=0)। ম্যাকসআউট নিউরন তাই একটি আরএলইউ ইউনিট (অপারেশনের রৈখিক শাসন, কোন স্যাচুরেশন) এর সমস্ত সুবিধা ভোগ করে এবং এর অসুবিধাগুলি নেই (মারা যাচ্ছেন রিলু)। তবে, আরএলইউ নিউরনের বিপরীতে এটি প্রতিটি একক নিউরনের জন্য পরামিতির সংখ্যাকে দ্বিগুণ করে, যার ফলে উচ্চতর পরামিতিগুলির সংখ্যার সৃষ্টি হয়।

এটি আমাদের সর্বাধিক সাধারণ ধরণের নিউরন এবং তাদের সক্রিয়করণ কার্যাদি নিয়ে আলোচনা সমাপ্ত করে। একটি সর্বশেষ মন্তব্য হিসাবে, এটি করার ক্ষেত্রে কোনও মৌলিক সমস্যা না থাকলেও একই নেটওয়ার্কে বিভিন্ন ধরণের নিউরনের মিশ্রণ এবং মেলা খুব বিরল।

টিএলডিআর : "আমার কোন নিউরনের ধরণটি ব্যবহার করা উচিত? " আরএলইউ অ-লাইনারিটি ব্যবহার করুন, আপনার শিক্ষার হারগুলি সম্পর্কে সতর্ক থাকুন এবং সম্ভবত কোনও নেটওয়ার্কে "মৃত" ইউনিটগুলির ভগ্নাংশ নিরীক্ষণ করুন। যদি এটি আপনার উদ্বেগ প্রকাশ করে তবে লিকি রিলু বা ম্যাক্সআউটকে একবার চেষ্টা করুন। সিগময়েড কখনও ব্যবহার করবেন না। তানহ চেষ্টা করে দেখুন, তবে এটি আরএলইউ / ম্যাক্সআউট থেকে খারাপ কাজ করার আশা করে।


লাইসেন্স:


এমআইটি লাইসেন্স (এমআইটি)

কপিরাইট (সি) 2015 আন্দ্রেজ কার্পেটি

ব্যবহারের অনুলিপি, অনুলিপি, সংশোধন, মার্জ করার অধিকার সহ সীমাবদ্ধতা ছাড়াই এই সফ্টওয়্যার এবং সম্পর্কিত ডকুমেন্টেশন ফাইলগুলির ("সফ্টওয়্যার") অনুলিপি গ্রহণকারী যে কোনও ব্যক্তিকে বিনা মূল্যে অনুমতি দেওয়া হয়েছে the সফটওয়্যারটির অনুলিপি, প্রকাশ, বিতরণ, সাবিলেন্স এবং / অথবা অনুলিপি বিক্রয় এবং এই সফ্টওয়্যারটি সরবরাহ করা ব্যক্তিকে নিম্নলিখিত শর্ত সাপেক্ষে অনুমতি দেওয়া:

উপরের কপিরাইট নোটিশ এবং এই অনুমতি বিজ্ঞপ্তিটি সমস্ত অনুলিপি বা সফ্টওয়্যারটির মূল অংশগুলিতে অন্তর্ভুক্ত থাকবে।

সফটওয়্যারটি "যেমন রয়েছে", কোনও ধরণের গ্যারান্টি ছাড়াই, এক্সপ্রেশন বা প্রয়োগ করা হয়েছে, তবে মার্চেন্টাবিলিটির গ্যারান্টিতে সীমাবদ্ধ নয়, একটি সুনির্দিষ্ট উদ্দেশ্য এবং অর্থোপার্জনের জন্য ফিটনেস রয়েছে। সফ্টওয়্যার বা সফ্টওয়্যার বা সংযোগের বাইরে বা অন্য কোনও সংস্থার, চুক্তি বা অন্য যে কোনও পদক্ষেপে, অভিযোগ বা অন্য দায়বদ্ধতার জন্য কোনও দাবি বা কপিরাইটধারীরা কোনও দাবি, ক্ষয়ক্ষতি বা অন্য দায়বদ্ধতার জন্য দায়বদ্ধ থাকবেন না সফটওয়্যার.*

অন্যান্য লিঙ্ক:


10

আমি মনে করি না যে উপকারিতা এবং কনসগুলির সাথে একটি তালিকা বিদ্যমান। সক্রিয়করণ ফাংশন অত্যন্ত আবেদন নির্ভরশীল এবং তাদেরকে আপনার স্নায়ুর নেটওয়ার্ক স্থাপত্য (এছাড়াও নির্ভর এখানে উদাহরণস্বরূপ আপনি দুই softmax ফাংশন অ্যাপ্লিকেশন দেখুন, যে সিগমা এক অনুরূপ)।

ফাংশনগুলির সাধারণ আচরণ সম্পর্কে আপনি কিছু গবেষণা খুঁজে পেতে পারেন তবে আমি মনে করি আপনার কোনও সংজ্ঞায়িত এবং চূড়ান্ত তালিকা থাকবে না (আপনি যা জিজ্ঞাসা করবেন ...)।

আমি এখনও একজন শিক্ষার্থী, তাই আমি এখন পর্যন্ত যা জানি তা উল্লেখ করছি:

  • এখানে আপনি ব্যানপ্রসারণের সাথে তানহ এবং সিগময়েডের আচরণ সম্পর্কে কিছু ধারণা পেয়েছেন। তানহ আরও সাধারণ, তবে সিগময়েড ... (সর্বদা একটি "তবে" থাকবে)
  • ইন ডীপ বিরল সংশোধনকারী নিউরাল নেটওয়ার্ক Glorot জেভিয়ার এট, তারা রাষ্ট্র যে সংশোধনকারী ইউনিট আরো জৈবিকভাবে বিশ্বাসযোগ্য এবং তারা অন্যদের চেয়ে ভাল সঞ্চালন (সিগমা / TANH)

এটা সঠিক উত্তর. একটি তালিকা তৈরি করতে পারে তবে উপকারিতা এবং কনস সম্পূর্ণ ডেটা নির্ভর। প্রকৃতপক্ষে, তত্ত্বের ক্ষেত্রে অ্যাক্টিভেশন ফাংশনগুলি শেখা অনেক বেশি যুক্তিসঙ্গত। এটিতে গবেষণার কেন্দ্রবিন্দু না থাকার কারণটি হ'ল সিগময়েড "কেবলমাত্র কাজ করে"। শেষ পর্যন্ত, আপনার একমাত্র লাভ হ'ল রূপান্তর গতি যা প্রায়শই গুরুত্বহীন
রানড্রস

4

ড্যানিয়েলের দুর্দান্ত উত্তরের সম্পূর্ণতার স্বার্থে, অন্যান্য দৃষ্টান্ত রয়েছে, যেখানে কেউ এলোমেলোভাবে ওজন এবং / অথবা ক্রিয়াকলাপগুলির ধরণের: চাকা স্পিন করে: তরল স্টেট মেশিন , চরম শেখার মেশিন এবং প্রতিধ্বনীয় রাষ্ট্রের নেটওয়ার্কগুলি

এই আর্কিটেকচারগুলি সম্পর্কে চিন্তা করার এক উপায়: জলাশয়টি এসভিএমগুলিতে যেমন একটি কার্নেল বা সাধারণ এফএফএনএন-তে একটি বৃহত্তর গোপন স্তর যেখানে ডেটা কিছু হাইপারস্পেসে প্রমানিত হয়। কোনও আসল শিক্ষণ নেই, সন্তোষজনক সমাধান না পাওয়া পর্যন্ত জলাধারটি পুনরায় জেনারেট করা হয়।

এই সুন্দর উত্তর দেখুন


2

সাম্প্রতিক সক্রিয়করণ কার্যাদি পর্যালোচনা করে একটি নিবন্ধ পাওয়া যাবে

" অ্যাক্টিভেশন ফাংশনস: ডিপ লার্নিংয়ের জন্য অনুশীলন ও গবেষণার প্রবণতাগুলির তুলনা " চিগোজি এনাইনা নওয়ানপাপা, উইনিফ্রেড ইজোমাহ, অ্যান্টনি গাচাগান এবং স্টিফেন মার্শাল রচনা

গভীরতর নিউরাল নেটওয়ার্কগুলি কার্যকরভাবে আরও গভীর শিখন (ডিএল) আর্কিটেকচারের সাহায্যে বাস্তব বিশ্বের জটিল সমস্যাগুলি সমাধান করার জন্য বিভিন্ন উদীয়মান ডোমেনগুলিতে সাফল্যের সাথে ব্যবহার করা হয়েছে, যা আজ অবধি উন্নত being এই অত্যাধুনিক পারফরম্যান্সগুলি অর্জন করতে, ডিএল আর্কিটেকচারগুলি কোনও ডিএল আর্কিটেকচারের লুকানো স্তর এবং আউটপুট স্তরগুলির মধ্যে বিভক্ত গণনা সম্পাদনের জন্য অ্যাক্টিভেশন ফাংশন (এএফএস) ব্যবহার করে। এই নিবন্ধটি গভীর শিক্ষার অ্যাপ্লিকেশনগুলিতে ব্যবহৃত এএফস সম্পর্কিত একটি সমীক্ষা উপস্থাপন করে এবং গভীর শিক্ষার অ্যাপ্লিকেশনগুলির জন্য অ্যাক্টিভেশন ফাংশনগুলির ব্যবহারের সাম্প্রতিক প্রবণতাগুলি তুলে ধরে। এই গবেষণাপত্রের অভিনবত্বটি হ'ল এটি ডিএলে ব্যবহৃত বেশিরভাগ এএফ সংকলন করে এবং অত্যাধুনিক গবেষণার ফলাফলগুলির বিরুদ্ধে বাস্তব গভীর শেখার মোতায়েনের মধ্যে এই ফাংশনগুলির প্রয়োগ ও ব্যবহারের বর্তমান প্রবণতাগুলির রূপরেখা দেয়। এই সংকলন স্থাপনের জন্য প্রস্তুত যে কোনও প্রদত্ত আবেদনের জন্য সর্বাধিক উপযুক্ত এবং উপযুক্ত অ্যাক্টিভেশন ফাংশনের পছন্দে কার্যকর সিদ্ধান্ত নিতে সহায়তা করবে। এই কাগজটি সময়োচিত কারণ এএফ-এর বেশিরভাগ গবেষণামূলক গবেষণাপত্রগুলি অনুরূপ কাজগুলি এবং ফলাফলগুলিকে হাইলাইট করে এবং এই গবেষণাপত্রটি প্রথম হবে, এটি আজ পর্যন্ত গভীর শিক্ষার গবেষণায় প্রাপ্ত সাহিত্যের গবেষণার ফলাফলগুলির বিরুদ্ধে অনুশীলনে এএফ প্রয়োগগুলির প্রবণতাগুলি সংকলন করবে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.