একটি সিএনএন পুরো স্থান জুড়ে নিদর্শনগুলি সনাক্ত করতে শিখবে। সুতরাং, যেমন আপনি বলেছেন, একটি সিএনএন একটি চিত্রের উপাদানগুলি সনাক্ত করতে শিখবে (যেমন, লাইন, বক্ররেখা ইত্যাদি) এবং তারপরে বৃহত্তর কাঠামোগুলি (যেমন, মুখ, বস্তু ইত্যাদি) সনাক্ত করতে এই উপাদানগুলিকে একত্রিত করতে শিখবে।
আপনি বলতে পারেন, খুব সাধারণ উপায়ে, কোনও আরএনএন একইভাবে সময়ের সাথে সাথে নিদর্শনগুলি সনাক্ত করতে শিখবে। সুতরাং একটি আরএনএন যা পাঠ্য অনুবাদ করতে প্রশিক্ষণপ্রাপ্ত তা শিখতে পারে যে "কুকুর" আলাদাভাবে অনুবাদ করা উচিত যদি "হট" শব্দটির আগে হয়।
তবে দুই ধরণের এনএন এই পদ্ধতিগুলির প্রতিনিধিত্ব করে mechanism সিএনএন-এর ক্ষেত্রে, আপনি ইমেজের সমস্ত বিভিন্ন সাবফিল্ডে একই প্যাটার্নগুলি সন্ধান করছেন। আরএনএন-এর ক্ষেত্রে আপনি (সহজতম ক্ষেত্রে) পূর্ববর্তী পদক্ষেপ থেকে লুকানো স্তরগুলি পরবর্তী ধাপে অতিরিক্ত ইনপুট হিসাবে খাওয়ান। আরএনএন এই প্রক্রিয়াটিতে স্মৃতিশক্তি তৈরি করার সময়, এটি কোনও সিএনএন স্থানের বিভিন্ন অঞ্চলে একই প্যাটার্নগুলির জন্য একইভাবে সময়ের বিভিন্ন টুকরোতে একই প্যাটার্নগুলির সন্ধান করে না।
আমার এও লক্ষ্য করা উচিত যে আমি যখন এখানে "সময়" এবং "স্থান" বলি তখন এটি খুব আক্ষরিক অর্থে নেওয়া উচিত নয়। চিত্রের শিরোনামের জন্য আপনি একটি একক ছবিতে একটি আরএনএন চালাতে পারেন, উদাহরণস্বরূপ এবং "সময়" এর অর্থটি কেবলমাত্র সেই ক্রম হবে যাতে চিত্রটির বিভিন্ন অংশগুলি প্রক্রিয়াজাত হয়। সুতরাং প্রাথমিকভাবে প্রক্রিয়াজাত অবজেক্টগুলি প্রক্রিয়াজাতকৃত অবজেক্টগুলির ক্যাপশন দেওয়ার বিষয়টি অবহিত করবে।