উদাহরণস্বরূপ, ধরা যাক আমরা কোনও ব্যক্তির ছবির উপর ভিত্তি করে একটি বয়স অনুমানকারী তৈরি করছি। আমাদের স্যুটে দু'জন লোক নিচে রয়েছে, তবে প্রথমটি দ্বিতীয়জনের চেয়ে স্পষ্টতই কম বয়সী।
(উত্স: tinytux.com )
প্রচুর বৈশিষ্ট্য রয়েছে যা এটি বোঝায়, উদাহরণস্বরূপ মুখের কাঠামো। তবে সর্বাধিক বলার বৈশিষ্ট্য হ'ল মাথার আকারের সাথে শরীরের আকারের অনুপাত :
(উত্স: উইকিমিডিয়া.অর্গ )
সুতরাং ধরুন আমরা কোনও ব্যক্তির বয়স সম্পর্কে ভবিষ্যদ্বাণী করতে একটি সিএনএন রিগ্রেশন প্রশিক্ষণ দিয়েছি। আমি যে বয়সের ভবিষ্যদ্বাণীকারীদের চেষ্টা করেছি তার মধ্যে, বাচ্চাটির উপরের চিত্রটি ভবিষ্যদ্বাণীগুলিকে তার বয়স্ক ভাবতে বোকা বানাবে বলে মনে হয়, মামলা ও সম্ভবত কারণ তারা মূলত মুখের উপর নির্ভর করে:
আমি ভাবছি যে ভ্যানিলা সিএনএন আর্কিটেকচারটি মাথা থেকে ধড়ের অনুপাতটিকে কতটা ভালভাবে অনুমান করতে পারে?
একটি আঞ্চলিক আরসিএনএন এর সাথে তুলনা করা, যা শরীর এবং মাথায় বাউন্ডিং বক্স পেতে সক্ষম, ভ্যানিলা সিএনএন কি সর্বদা আরও খারাপ সম্পাদন করবে?
ভ্যানিলা সিএনএন (যেমন সমস্ত কনভোলিউশনের ঠিক পরে) বিশ্বব্যাপী সমতলকরণের ঠিক আগে, প্রতিটি আউটপুটে একটি অনুরূপ গ্রহণযোগ্য ক্ষেত্র থাকে, যার স্কেল বোধ থাকা উচিত। আমি জানি যে দ্রুত আরসিএনএন ঠিক এই পর্যায়ে বাউন্ডিং বক্স প্রস্তাব তৈরি করে এটি কাজে লাগায়, যাতে সমস্ত পূর্ববর্তী কনভোলজিনাল ফিল্টারগুলি স্বয়ংক্রিয়ভাবে সমস্ত স্কেলে প্রশিক্ষিত হয়।
সুতরাং, আমি ভ্যানিলা সিএনএন মাথা থেকে ধড় আকারের অনুপাত নির্ধারণ করতে সক্ষম হতে হবে? এটা কী ঠিক? যদি তা হয়, তবে মানুষকে সনাক্তকরণে প্রাক-প্রশিক্ষিত হতে পারে এই সত্যটি কাজে লাগাতে দ্রুত আরসিএনএন কাঠামো ব্যবহার করার একমাত্র সুবিধা?