ব্যাচের সাধারণকরণের অর্থ কি সিগময়েডগুলি রিলএইউগুলির চেয়ে আরও ভাল কাজ করে?


9

ব্যাচের নরমালাইজেশন এবং রিলিজ দুটি হ'ল বিলুপ্ত গ্রেডিয়েন্ট সমস্যার সমাধান। আমরা যদি ব্যাচের নরমালাইজেশন ব্যবহার করি তবে আমাদের কি তখন সিগময়েড ব্যবহার করা উচিত? বা রেইলইউগুলির এমন বৈশিষ্ট্য রয়েছে যা ব্যাচনরম ব্যবহার করার পরেও তাদের সার্থক করে তোলে?

আমি মনে করি যে ব্যাচনর্মে সাধারনকরণটি শূন্য ক্রিয়াকলাপগুলি নেতিবাচক প্রেরণ করবে। তার অর্থ কি ব্যাচনর্ম "মৃত রিলু" সমস্যাটি সমাধান করে?

তবে তান ও লজিস্টিকের ধারাবাহিক প্রকৃতি আবেদনময়ী থেকে যায়। আমি যদি ব্যাচনর্ম ব্যবহার করছি, তানহ কি আরএলইউ এর চেয়ে আরও ভাল কাজ করবে?

আমি নিশ্চিত যে উত্তরটি নির্ভর করে । সুতরাং, আপনার অভিজ্ঞতায় কী কাজ করেছে এবং আপনার অ্যাপ্লিকেশনটির প্রধান বৈশিষ্ট্যগুলি কী?


এমনকি যদি কাগজটি সক্রিয়করণের আগে ব্যাচনরম ব্যবহার করার পরামর্শ দেয়, তবে বাস্তবে দেখা গেছে যে বিএন পরে প্রয়োগ করা হলে আরও ভাল সমাধান পাওয়া যায়। যদি আমি এমন কিছুটিকে উপেক্ষা না করি যার অর্থ হওয়া উচিত, তবে পরবর্তী ক্ষেত্রে, বিএনটির সক্রিয়করণের কোনও প্রভাব নেই। তবে অবশ্যই এটি একটি ওপেন প্রশ্ন, যদি বিএন প্রয়োগ করার সময় আরও ভালভাবে কাজ করত এবং আরএলইউর তুলনায় অন্য অ্যাক্টিভেশন সহ। আমার মতে, না। কারণ আরএলইউর এখনও আরও সুবিধাগুলি রয়েছে, যেমন একটি সরল বিকাশ। তবে আমিও কৌতুহলী। কেউ এই ক্ষেত্রে অভিজ্ঞতা তৈরি হতে পারে।
oezguensi

উত্তর:


1

দেখুন, ব্যাচ-নরমালাইজেশনের পিছনে মূল ধারণাটি হ'ল (একটি মিডিয়াম নিবন্ধের অংশ) -

সক্রিয়করণগুলিকে সামঞ্জস্য করে এবং স্কেল করে আমরা আমাদের ইনপুট স্তরটিকে সাধারণকরণ করি। উদাহরণস্বরূপ, যখন আমাদের 0 থেকে 1 এবং কিছু 1 থেকে 1000 পর্যন্ত বৈশিষ্ট্যগুলি থাকে, তখন আমাদের শেখার গতি বাড়ানোর জন্য সেগুলি স্বাভাবিক করা উচিত। যদি ইনপুট স্তরটি এতে উপকৃত হচ্ছে, তবে লুকানো স্তরগুলির মানগুলির জন্য একই জিনিসটি কেন করবেন না, যা সর্বকালে পরিবর্তন হয় এবং প্রশিক্ষণের গতিতে 10 গুণ বা আরও উন্নতি পান।

নিবন্ধটি এখানে পড়ুন।

এই কারণেই আমরা ব্যাচ-নরমালাইজেশন ব্যবহার করি। এখন আপনার প্রশ্নে আসুন, দেখুন সিগময়েডের আউটপুটটি 0 থেকে 1 এর মধ্যে সীমাবদ্ধতা এবং এটি ব্যাচ-নরমালাইজেশনের মূলমন্ত্রটি কী। যদি আমরা সিগময়েড অ্যাক্টিভেশন দিয়ে বাচ-নরমালাইজেশন ব্যবহার করি, তবে এটি সিগময়েড (0) থেকে সিগময়েড (1) এর মধ্যে সীমাবদ্ধ থাকবে, যা 0.5 থেকে 0.73 between এর মধ্যে রয়েছেRএকটি1/(1+ +1/)। তবে আমরা যদি ব্যাচ-নরমালাইজেশনের সাথে রিলু ব্যবহার করি তবে আউটপুটটি 0 থেকে 1 এর মধ্যে ছড়িয়ে যাবে যা শেষ পর্যন্ত আমাদের পক্ষে ভাল জিনিস, আমরা আউটপুটটিকে যতটা বৈচিত্র্যযুক্ত তা চাই। তাই আমি মনে করি অন্যান্য ক্রিয়াকলাপগুলির মধ্যে রিলু সেরা পছন্দ হবে।


0

পাগল আপনার ব্যাচের সাধারণীকরণ সম্পর্কিত আপনার প্রশ্নের সঠিকভাবে উত্তর দিয়েছেন এবং আমাকে আপনার দ্বিতীয় অংশের উত্তর দিতে দিন যে ক্রমাগত ফাংশনগুলি কীভাবে আবেদনময়ী বলে মনে হতে পারে তবে এই সমস্তের চেয়ে রিলু ভাল এবং এই বিবৃতিটি আমার পক্ষের এমআর থেকে নয়। হিন্টন এর উদ্ধৃতি দিয়ে বলেছেন "আমরা বোবা লোক যারা সিগময়েডকে একটি অ্যাক্টিভেশন ফাংশন হিসাবে ব্যবহার করছিলাম এবং এটি উপলব্ধি হতে 30 বছর সময় লেগেছিল যে এর রূপটি না বুঝে আপনার নিউরনটি কখনও তার শিক্ষার ক্ষেত্রে যেতে দেবে না এটি সর্বদা স্যাচুরেটিং তাই এটি ব্যাস্তবিক এবং তিনি নিজেকে এবং অন্য সকলকে হতবাক মানুষ বলে অভিহিত করেছেন। "সুতরাং কেবলমাত্র একটি অ্যাক্টিভেশন ফাংশন বেছে নেওয়া কারণ এটি ক্রমাগত এবং এটি আপনার নিউরনে কীভাবে প্রভাব ফেলবে তা তাকিয়ে নেই ''

দ্রষ্টব্য: আপনি যদি স্নায়বিক জাল অধ্যয়ন করছেন তবে আমি আপনাকে পরামর্শ দিচ্ছি যে স্নায়ু জালগুলি বড় এবং গভীর সংমিশ্রিত ফাংশন হিসাবে বিবেচনা করে যাতে কী কাজ করে এবং এটি কেন কাজ করে তা বুঝতে আপনাকে কীভাবে নিউরাল নেট কিছু উচ্চ মাত্রায় ডেটা বহুগুণ তৈরি করে "প্রতিনিধিত্ব করে" "যে ডেটাতে বহুগুণের মঙ্গলতা আপনার কার্যকারিতা পছন্দ করে এবং কোনও ফাংশন কীভাবে অন্য ফাংশনগুলিকে ইনপুট হিসাবে দেওয়া হয় তার উপর আউটপুট রূপান্তরিত করে তা নির্ভর করে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.