অ্যাক্টিভেশন ফাংশনটি কীভাবে চয়ন করবেন?


13

আমার প্রয়োজন আউটপুট এবং অ্যাক্টিভেশন ফাংশনের বৈশিষ্ট্য যা আমি জানি তার উপর নির্ভর করে আউটপুট স্তরটির জন্য অ্যাক্টিভেশন ফাংশনটি নির্বাচন করি। উদাহরণস্বরূপ, আমি সিগময়েড ফাংশনটি যখন আমি সম্ভাবনাগুলি নিয়ে কাজ করি, যখন আমি ইতিবাচক মানগুলি নিয়ে কাজ করি তখন একটি আরএলইউ এবং যখন আমি সাধারণ মানগুলি নিয়ে কাজ করি তখন একটি লিনিয়ার ফাংশন বেছে নিই।

লুকানো স্তরগুলিতে, আমি রিলু পরিবর্তনের পরিবর্তে মৃত নিউরন এবং সিগময়েডের পরিবর্তে তানহ এড়ানোর জন্য একটি ফাঁস হওয়া আরএলইউ ব্যবহার করি। অবশ্যই, আমি লুকানো ইউনিটগুলিতে লিনিয়ার ফাংশন ব্যবহার করি না।

তবে, লুকানো স্তরে তাদের জন্য পছন্দটি বেশিরভাগ ক্ষেত্রে পরীক্ষা এবং ত্রুটির কারণে হয়।

অ্যাক্টিভেশন ফাংশনটি কিছু পরিস্থিতিতে ভাল কাজ করার সম্ভাবনা রয়েছে যার কোনও থাম্বের কোনও নিয়ম আছে? পরিস্থিতিগুলি যথাসম্ভব সাধারণ হিসাবে নিন : এটি স্তরটির গভীরতা, এনএন এর গভীরতা, সেই স্তরটির জন্য নিউরনের সংখ্যাকে, আমরা যে অপটিমাইজারটিকে বেছে নিয়েছি, তার ইনপুট বৈশিষ্ট্যগুলির সংখ্যার প্রতি নির্দেশ করতে পারে এই স্তরটি, এই এনএন ইত্যাদির জন্য

ইন তার / তার উত্তর , cantordust অন্যান্য অ্যাক্টিভেশন ফাংশন বোঝায় যে, আমি উল্লেখ না ELU এবং SELU মত। এই ইনফোগুলি স্বাগত চেয়েও বেশি। যাইহোক, আরও সক্রিয়করণের ফাংশনগুলি আমি আবিষ্কার করি যে আমি লুকানো স্তরগুলিতে ব্যবহার করার জন্য ফাংশনের পছন্দগুলিতে আরও বিভ্রান্ত। এবং আমি মনে করি না যে একটি মুদ্রা উল্টানো একটি অ্যাক্টিভেশন ফাংশন চয়ন করার একটি ভাল উপায়।

উত্তর:


10

আমার কাছে মনে হচ্ছে আপনি ইতোমধ্যে রিলিজ এবং সিগময়েডগুলির ত্রুটিগুলি বুঝতে পেরেছেন (প্লেইন রিলুর ক্ষেত্রে মৃত নিউরনের মতো)। আমি ELU ( ক্ষতিকারক লিনিয়ার ইউনিট) এবং SELU (ELU এর স্ব-স্বাভাবিককরণ সংস্করণ) দেখার পরামর্শ দেব। কিছু হালকা অনুমানের অধীনে, আধুনিকগুলির স্ব-স্বাভাবিককরণের দুর্দান্ত সম্পত্তি রয়েছে যা বিলুপ্ত হওয়া এবং বিস্ফোরিত গ্রেডিয়েন্টগুলির সমস্যা প্রশমিত করে। তদতিরিক্ত , তারা সাধারণীকরণ প্রচার করে - যেমন, তারা গ্যারান্টি দেয় যে পরবর্তী স্তরটিতে ইনপুটটির শূন্য গড় এবং একক বৈকল্পিকতা থাকবে।

সম্পাদনা:


এটি অ্যাক্টিভেশন ফাংশনটি সুপারিশ করা অবিশ্বাস্যরকম কঠিন হবে যা সমস্ত ব্যবহারের ক্ষেত্রে কাজ করে (যদিও আমি বিশ্বাস করি যে সেলু এমনভাবে ডিজাইন করা হয়েছিল যাতে এটি কোনও কার্যকরভাবে কোনও ইনপুট দিয়ে সঠিক কাজ করতে পারে)। অনেকগুলি বিবেচনা রয়েছে - ডেরিভেটিভ গণনা করা কতটা কঠিন (যদি এটি একেবারেই পৃথকযোগ্য হয়!), আপনার নির্বাচিত এএফের সাথে একটি নেটওয়ার্ক কত দ্রুত রূপান্তরিত হয়, এটি কতটা মসৃণ হয়, এটি শর্তগুলির সন্তুষ্ট কিনা whether সর্বজনীন আনুমানিক তত্ত্বের কিনা whether এটি সাধারণীকরণ ইত্যাদি সংরক্ষণ করে। আপনি তাদের বা কারও কারও যত্ন নিতে পারেন না বা করতে পারেন না।

তল লাইনটি হ'ল লুকানো স্তরগুলির জন্য অ্যাক্টিভেশন ফাংশনটি বেছে নেওয়ার জন্য কোনও সার্বজনীন নিয়ম নেই। ব্যক্তিগতভাবে, আমি সিগময়েডগুলি ব্যবহার করতে চাই (বিশেষত tanh) কারণ তারা সুন্দরভাবে আবদ্ধ এবং গণনা করার জন্য খুব দ্রুত, তবে সবচেয়ে গুরুত্বপূর্ণ কারণ তারা আমার ব্যবহারের ক্ষেত্রে কাজ করে । অন্যরা আপনার নেটওয়ার্কটি শিখতে ব্যর্থ হলে ইনপুট এবং লুকানো স্তরগুলিকে গ-টু ফাংশন হিসাবে ফাঁস হওয়া রিলু প্রস্তাব দেয় । এমনকি অভিনব অ্যাপ্লিকেশনগুলির জন্য নিউরাল নেটগুলি বিকশিত করতে অ্যাক্টিভেশন ফাংশনগুলি মিশ্রিত করতে এবং মেলাতেও পারেন

অ্যাক্টিভেশন ক্রিয়াকলাপের সঠিক পছন্দ সম্পর্কে লোকজন যতই আছে দিন শেষের দিকে আপনি সম্ভবত অনেকগুলি মতামত পেতে চলেছেন, তাই সংক্ষিপ্ত উত্তরটি সম্ভবত হওয়া উচিত: দিনের এএফ থেকে শুরু করুন (ফাঁস হওয়া রিলু / সেলু?) আপনার নেটওয়ার্ক যদি কিছু শেখার জন্য লড়াই করে তবে হ্রাস পাচ্ছে জনপ্রিয়তা হ্রাসের জন্য এবং অন্যান্য এএফএস দিয়ে কাজ করুন।


1
ঠিক আছে, আমি সাধারণীকরণের প্রচার সম্পর্কে ভুলে গেছি। আমাকে মনে করার জন্য ধন্যবাদ. তবে, প্রশ্নটি এখনও উত্তরহীন। একটি নিয়ম বা এমন কিছু বেছে নেওয়ার জন্য আছে যা লুকানো স্তরগুলিতে আমার কোন অ্যাক্টিভেশন ফাংশনগুলি রাখা উচিত? সরলতার জন্য আমি কেবল সম্পূর্ণ সংযুক্ত স্তরগুলির বিষয়েই কথা বলছি। আমি
বিষয়টি কনভলিউশন

@ জিভিগ্রাজাজিও আমি উত্তরটি সম্পাদনা করেছি, আশা করি এটি এখন আরও কিছুটা কার্যকর হবে।
ক্যান্টর্ডস্ট

সম্পাদনাটির সাথে আমি মনে করি আপনি আমার প্রশ্নের জবাব দেওয়ার পাশাপাশি আগ্রহী লিঙ্কগুলি সরবরাহ করেছেন (বিশেষত মিশ্রণ এবং মিলের বিষয়ে একটি )। দুর্ভাগ্যক্রমে যে উত্তরটি আমি শুনতে চেয়েছিলাম তা নয়। আমি আমার প্রশ্নটি আরও কিছু দিন খোলা রাখব। যদি আরও ভাল উত্তর না আসে তবে আমি আপনাকে স্বীকৃত হিসাবে চিহ্নিত করব।
gvgramazio

-1

আপনি কী ধরণের নিউরাল নেটওয়ার্কে কাজ করছেন তা আমি জানি না। তবে পুনরাবৃত্ত নিউরাল নেটওয়ার্ক নিয়ে কাজ করার সময় তান অ্যাক্টিভেশন ফাংশনগুলি বিবেচনা করা উচিত। উদাহরণস্বরূপ, তান ফাংশনটি RELU ফাংশনের পার্থক্যের সাথে আবদ্ধ হওয়ার কারণে গ্রেডিয়েন্ট সমস্যাগুলি বিস্ফোরিত হওয়া এড়াতে কেন।


প্রশ্নে আমি বলেছি যে আমি তানহ এবং সিগময়েড ব্যবহার করি, কেবল আরএলইউই নয়। এছাড়াও, এটিকে সহজ রাখার জন্য আমি সাধারণভাবে শাস্ত্রীয় লুকিয়ে থাকা সম্পূর্ণ সংযুক্ত স্তরগুলির উল্লেখ করছি। যদি আপনি মনে করেন যে অ্যাক্টিভেশন ফাংশনটি বেছে নেওয়ার জন্য আমরা একটি পুনরাবৃত্ত নিউরাল নেটওয়ার্কের সাথে কথা বলছি তা দয়া করে এর কারণটি উল্লেখ করুন। বিস্ফোরিত / অদৃশ্য ঘটনাটিও পুনরাবৃত্ত নিউরাল নেটওয়ার্কে ঘটতে পারে।
gvgramazio
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.