সুতরাং আমি কনভ্যুশনাল নেট ব্যবহার করে মানুষের চিত্রগুলিতে প্রাকট্রেনিং করার চেষ্টা করছি। আমি কাগজপত্রগুলি ( পেপার 1 এবং পেপার 2 ) এবং এই স্ট্যাকওভারফ্লো লিঙ্কটি পড়েছি, তবে আমি নিশ্চিত না যে আমি নেটগুলির কাঠামো বুঝতে পেরেছি (এটি কাগজগুলিতে ভালভাবে সংজ্ঞায়িত হয়নি)।
প্রশ্নাবলী:
আমি আমার ইনপুটটি শোনার স্তরটির পরে একটি কনিভ স্তর, তার পরে একটি পুলিং স্তর করতে পারি - তার পরে - আমি আমার আউটপুট দেওয়ার আগে ডি-পুল করব (যা আমার ইনপুট চিত্রটি একই)?
বলুন আমার কাছে বেশ কয়েকটি (135,240) চিত্র রয়েছে। আমি যদি 32, (12,21) কার্নেলগুলি ব্যবহার করি, তারপরে (2,2) পুলিং হয়, তবে আমি 32 (62, 110) বৈশিষ্ট্যের মানচিত্র দিয়ে শেষ করব। এখন আমি 32 (124, 220) বৈশিষ্ট্যের মানচিত্রগুলি পেয়ে ডি-পুল করব এবং তারপরে এগুলি সমতল করব? আমার (135,240) আউটপুট স্তর দেওয়ার আগে?
আমার যদি এমন একাধিক কনফুল-পুল স্তর থাকে তবে আমি কি তাদের একের পর এক প্রশিক্ষণ দেবো - স্ট্যাকড ডিনোইজড অটোইনকোডারগুলির মতো? বা - আমার কাছে কি ইনপুট-কন-পুল-কউও-পুল-কউ-পুল-আউটপুট (আউটপুট ইনপুট হিসাবে একই হতে পারে) এর মতো কিছু থাকতে পারে? সেক্ষেত্রে পুলিং, ডিপুলিংয়ের ব্যবস্থা কীভাবে পরিচালিত হবে? আউটপুট দেওয়ার আগে আমার কি সর্বশেষ পুল স্তরে ডি-পুল করা উচিত? এবং আবারও - সেই ডি-পুলিংয়ের আকার পরিবর্তনকারী ফ্যাক্টরটি কী হওয়া উচিত? বৈশিষ্ট্য মানচিত্রগুলি ইনপুট আকারে ফিরিয়ে আনার অভিপ্রায় কি?
আমি কি প্রতিটি কন-পুল-ডিপুল স্তর পরে শব্দ স্তরগুলি প্রবর্তন করব?
এবং তারপরে সূক্ষ্ম টিউন করার সময় - আমি কি কেবল ডি-পুলিং স্তরগুলি সরিয়ে নিয়ে বাকিগুলি একই রেখে দেব। অথবা আমি উভয় শব্দ স্তর এবং ডি-পুলিং স্তরগুলি অপসারণ করব
ছবিগুলির প্রাক প্রশিক্ষণ করার জন্য এমন কোনও স্ট্রাকড কনভ্যুশনাল অটো এনকোডারটির স্থাপত্যের বিস্তারিত বিশদযুক্ত কোনও ইউআরএল / কাগজের দিকে আমাকে কী নির্দেশ করতে পারে?