প্রান্ত সনাক্তকরণের মতো কিছু করার জন্য ফিল্টার প্রয়োগ করার ধারণাটি একটি দুর্দান্ত ধারণা।
উদাহরণস্বরূপ, আপনি একটি image এর একটি চিত্র নিতে পারেন some কিছু ফিল্টার দিয়ে, আপনি রূপান্তরিত চিত্রগুলি দিয়ে শেষ করতে পারেন যা মূল চিত্রের বিভিন্ন বৈশিষ্ট্যকে জোর দেয়। মূল 7:
নেটওয়ার্ক হিসাবে অভিজ্ঞ হতে পারে:
প্রতিটি চিত্র কীভাবে মূল 7 এর আলাদা প্রান্তটি বের করেছে তা লক্ষ্য করুন।
এটি দুর্দান্ত, তবে তারপরে বলুন আপনার নেটওয়ার্কের পরবর্তী স্তরটি একটি সর্বাধিক পুলিং স্তর।
আমার প্রশ্নটি, সাধারণত, এটি কি ওভারকিলের মতো কিছুটা মনে হয় না? আমরা ফিল্টারগুলি ব্যবহার করে প্রান্তগুলি সনাক্তকরণের জন্য খুব যত্নবান এবং ইচ্ছাকৃত হয়েছি - এখন, আমরা আর কোনওটিরই যত্ন নিই না, যেহেতু আমরা পিক্সেল মানগুলি বাদ দিয়েছি! আমি ভুল হলে আমাকে সংশোধন করুন, তবে আমরা 25 এক্স 25 থেকে 2 এক্স 2 এ চলেছি! কেন কেবল তখন সরাসরি ম্যাক্স পুলিংয়ে যাবেন না, আমরা কি মূলত একই জিনিসটি শেষ করব না?
আমার প্রশ্নটি একটি এক্সটেনশান হিসাবে, আমি সাহায্য করতে পারি না তবে আশ্চর্য হতে পারি না যে কী ঘটবে, কাকতালীয়ভাবে, 4 স্কোয়ারগুলির প্রত্যেকেরই কেবল একই সর্বাধিক মান সহ একটি পিক্সেল হবে। নিশ্চয়ই এটি বিরল ঘটনা নয়, তাই না? হঠাৎ আপনার সমস্ত প্রশিক্ষণ চিত্রগুলি হুবহু দেখতে একই রকম।
The pooling operation provides a form of translation invariance
?