আমি অবিচ্ছিন্ন নিউরাল নেটওয়ার্কগুলি অধ্যয়ন করছি এবং বাস্তবায়নের চেষ্টা করছি, তবে আমি মনে করি এই প্রশ্নটি সাধারণভাবে মাল্টিলেয়ার পারসেপ্ট্রনগুলির ক্ষেত্রে প্রযোজ্য।
আমার নেটওয়ার্কের আউটপুট নিউরনগুলি প্রতিটি শ্রেণীর সক্রিয়করণের প্রতিনিধিত্ব করে: সর্বাধিক সক্রিয় নিউরন একটি প্রদত্ত ইনপুটটির জন্য পূর্বাভাসীকৃত বর্গের সাথে মিল রাখে। প্রশিক্ষণের জন্য ক্রস-এনট্রপি ব্যয় বিবেচনা করার জন্য, আমি নেটওয়ার্কের শেষে একটি সফটম্যাক্স স্তর যুক্ত করছি, যাতে প্রতিটি নিউরনের অ্যাক্টিভেশন মানটিকে সম্ভাবনার মান হিসাবে ব্যাখ্যা করা হয়।
আমার প্রশ্ন হ'ল: আউটপুট স্তরের নিউরনগুলি কি ইনপুটটিতে একটি অ-লিনিয়ার ফাংশন প্রয়োগ করতে পারে? আমার অন্তর্নিহিততা এটি প্রয়োজনীয় নয়:
- যদি -th আউটপুট নিউরনের কোনও ভেক্টর x (পূর্ববর্তী স্তর থেকে আগত) এবং সেই নিউরনের জন্য ওজন \ theta_i এর মধ্যে ডট প্রোডাক্ট হয় ,x T θ i x θ i
- এবং যদি আমি সিগময়েড বা আরএলইউর মতো একঘেয়েমিযুক্ত অ-লিনিয়ার ফাংশন নিযুক্ত করি
- তারপরে বৃহত্তর অ্যাক্টিভেশন আউটপুটটি এখনও বৃহত্তম , সুতরাং এই দৃষ্টিকোণ থেকে অ-লিনিয়ার ফাংশন ভবিষ্যদ্বাণীটি পরিবর্তন করবে না not
এই ব্যাখ্যায় কিছু ভুল আছে? এমন কিছু প্রশিক্ষণের কারণ রয়েছে যা আমি অবহেলা করছি যা আউটপুটটিকে অ-লৈঙ্গিকতা প্রয়োজনীয় করে তোলে?
এবং আমি যদি সঠিক হয়ে থাকি তবে সিগময়েড ফাংশনটি ব্যবহার করার পরিবর্তে আমি আরএলইউ
সম্পাদনা
কারেলের উত্তরের উল্লেখ, যার উত্তরটি মূলত "এটি নির্ভর করে", এখানে আমার নেটওয়ার্ক এবং সন্দেহের আরও বিশদ বর্ণনা রয়েছে:
ধরুন আমার কাছে এন লুকানো স্তর রয়েছে এবং আমার আউটপুট স্তরটি ক্লাসের প্রতিনিধিত্বকারী নিউরনের একটি সেটের উপরে কেবলমাত্র একটি সফটম্যাক্স স্তর (যাতে আমার প্রত্যাশিত আউটপুটটি সম্ভাব্যতা যে ইনপুট ডেটা প্রতিটি শ্রেণীর অন্তর্গত)। ধরে নিলাম প্রথম এন -1 স্তরগুলিতে ননলাইনার নিউরন রয়েছে, এন-থ্রি গোপন স্তরে ননলাইনার বনাম লিনিয়ার নিউরন ব্যবহারের মধ্যে পার্থক্য কী?