আমি যখন অ্যাক্টিভেশন ফাংশনগুলি মিশ্রিত করি তখন কী হয়?

এখানে বেশ কয়েকটি অ্যাক্টিভেশন ফাংশন রয়েছে যেমন রিলু, সিগময়েড বা $\tanh$ । আমি যখন অ্যাক্টিভেশন ফাংশনগুলি মিশ্রিত করি তখন কী হয়?

আমি সম্প্রতি খুঁজে পেয়েছি যে গুগল সুইশ অ্যাক্টিভেশন ফাংশনটি বিকাশ করেছে যা (x * সিগময়েড)। অ্যাক্টিভেশন ফাংশন পরিবর্তন করে কি এটি ছোট নিউরাল নেটওয়ার্ক সমস্যা যেমন এক্সওর সমস্যার যথাযথতা বাড়াতে পারে?

— JSChang
সূত্র

সাধারণ অ্যাক্টিভেশন ফাংশনগুলির সংমিশ্রনের আচরণের সাধারণ উত্তর হ'ল ক্যালকুলাসের আইন প্রয়োগ করা আবশ্যক, বিশেষত ডিফারেনশিয়াল ক্যালকুলাস, একত্রিত ফাংশনের গুণাবলী সম্পর্কে নিশ্চিত হওয়ার জন্য পরীক্ষার মাধ্যমে ফলাফল অবশ্যই অর্জন করতে হবে, এবং অতিরিক্ত জটিলতা সম্ভবত গণনার সময় বাড়ান। সংমিশ্রণের গুনগত বোঝা সংমিশ্রণটি সরবরাহ করে এমন কনভার্জেন্স সুবিধার তুলনায় যখন সামান্য হয় তখন এ জাতীয় বৃদ্ধি ব্যতিক্রম হবে।

এটি স্যুইশের ক্ষেত্রে সত্য বলে মনে হয়, নামটি সক্রিয়করণ ফাংশন হিসাবে দেওয়া হয়েছে defined

চ (এক্স) = এক্স এস (β এক্স),

$f(x) = x \, \mathbb{S}(\beta x) \; \text{,}$

কোথায় $f()$ এটি সুইশ অ্যাক্টিভেশন ফাংশন এবং $\mathbb{S}$ সিগময়েড ফাংশন। মনে রাখবেন যে সুইশ কঠোরভাবে অ্যাক্টিভেশন ফাংশনগুলির সংমিশ্রণ নয়। এটি হাইপার-প্যারামিটার যুক্ত করার মাধ্যমে গঠিত হয় $\beta$ সিগময়েড ফাংশনের ভিতরে এবং সিগময়েড ফাংশন ফলাফলের ইনপুটটির একটি গুণ।

এটি গুগল দ্বারা বিকাশিত বলে মনে হয় না। মূলত বেনামে জমা দেওয়া কাগজ (আইসিএলআর 2018 এর কাগজ হিসাবে ডাবল ব্লাইন্ড রিভিউয়ের জন্য), সক্রিয়করণ ফাংশনগুলির সন্ধান , প্রজিত রামচন্দ্রন, ব্যারেট জোফ, এবং কোওক ভি লে দ্বারা রচনা করেছেন 2017 প্রায় এই তাদের দাবি।

আমাদের পরীক্ষাগুলি দেখায় যে সেরা আবিষ্কারকৃত অ্যাক্টিভেশন ফাংশন, ... সুইস, ... বিভিন্ন চ্যালেঞ্জিং ডেটাসেট জুড়ে গভীর মডেলগুলিতে আরএলইউর চেয়ে আরও ভাল কাজ করার ঝোঁক।

জ্যোতির্বিজ্ঞানের দিক থেকে বিরল ক্ষেত্রে, প্রভাবের নির্ভুলতা, নির্ভরযোগ্যতা এবং গণনার দক্ষতা ব্যতীত যে কোনও এক স্তরে অ্যাক্টিভেশন ফাংশনে কোনও পরিবর্তন হবে। পরিবর্তনটি উল্লেখযোগ্য কিনা তা সাধারণীকরণ করা যায় না। সে কারণেই নতুন ধারণাগুলি ডেটা সেটগুলির বিপরীতে পরীক্ষা করা হয় traditionতিহ্যগতভাবে দরকারীতা ¹ ব্যবহার করতে ।

নতুন অ্যাক্টিভেশন ফাংশন গঠনে অ্যাক্টিভেশন ফাংশনগুলির সংমিশ্রণ সাধারণ নয়। উদাহরণস্বরূপ, অ্যালেক্সনেট তাদের একত্রিত করে না। ^ঘ । তবে একক, কার্যকর নেটওয়ার্ক ডিজাইনের বিভিন্ন স্তরে বিভিন্ন অ্যাক্টিভেশন ফাংশন ব্যবহার করা খুব সাধারণ।

পাদটিকা

[1] এই traditionsতিহ্যগুলি পক্ষপাতিত্ব তৈরি করে কিনা তা অন্য প্রশ্ন is যারা সুইডিশ কম্পিউটার বিজ্ঞানী ইভার হজালমার জ্যাকবসন বা S সিগমা ধারণা দ্বারা নেতৃত্বাধীন ব্যবহারের কেস বিশ্লেষণ তত্ত্ব অনুসরণ করেন তারা বলবেন যে এই পরীক্ষাগুলি ইউনিট পরীক্ষা, বাস্তব বিশ্বের ব্যবহারের মামলার বিরুদ্ধে কার্যকরী পরীক্ষা নয় এবং তাদের একটি বক্তব্য রয়েছে।

[২] অন্য উত্তর থেকে উদ্ভূত যে কোনও ভুল ধারণাটি সংশোধন করতে, অ্যালেক্সট নেট, ডিপ কনভলিউশনাল নিউরাল নেটওয়ার্কস (২০১২) এর সাথে অ্যালেক্স ক্রিজেভস্কি, ইলিয়া সুটস্কিভার এবং জেফ্রি ই হিন্টন বিশ্ববিদ্যালয় থেকে চিত্রনাট্যর শ্রেণিবিন্যাসে বর্ণিত পদ্ধতির দেওয়া নাম টরন্টো, নতুন গঠনের জন্য অ্যাক্টিভেশন ফাংশনগুলির সমন্বয় জড়িত করে না। তারা এটি লিখেছে।

সর্বশেষভাবে সংযুক্ত স্তরের আউটপুটটি 1000-ওয়ে সফটম্যাক্সকে খাওয়ানো হয় যা 1000 শ্রেণির লেবেলের উপরে বিতরণ করে।

...

ReLU অ-লিনিয়ারিটি প্রতিটি বিবাদী এবং সম্পূর্ণ-সংযুক্ত স্তরের আউটপুটে প্রয়োগ করা হয়। অভ্যন্তরীণ স্তরগুলি খাঁটি রিলু এবং আউটপুট স্তরটি সফটম্যাক্স।

অ্যালেক্সনেট পদ্ধতির তাদের দ্বারা ব্যবহৃত স্তরগুলির সিরিজে কনভ্যুশনাল কার্নেল এবং পুলিং স্তর রয়েছে এবং 2012 সালে ইমেজনেট প্রতিযোগিতা জয়ের পরে ডিজাইনটি সাধারণ ব্যবহারে প্রবেশ করেছে Other অন্যান্য পদ্ধতিগুলি পরবর্তী প্রতিযোগিতায় জিতেছে।

— ডগলাস দাসেকো
সূত্র