সম্পূর্ণরূপে সংযুক্ত (কমপক্ষে স্তর থেকে স্তর 2 টিরও বেশি লুকিয়ে থাকা স্তর সহ) ব্যাকপ্রপ নেটওয়ার্কগুলি সর্বজনীন শিক্ষার্থী। দুর্ভাগ্যক্রমে, তারা প্রায়শই শিখতে ধীর হয় এবং অতি-ফিট হয়ে যায় বা বিশ্রী সাধারণীকরণ থাকে general
এই নেটওয়ার্কগুলির সাথে বোকা বানানো থেকে, আমি লক্ষ্য করেছি যে কয়েকটি প্রান্ত ছাঁটাই করা (যাতে তাদের ওজন শূন্য এবং পরিবর্তন করা অসম্ভব) নেটওয়ার্কগুলি আরও দ্রুত শিখতে এবং আরও সাধারণীকরণ করতে ঝোঁক। এরজন্য কি কোন কারণ আছে? এটি কেবলমাত্র ওজন অনুসন্ধানের জায়গার মাত্রা হ্রাস করার কারণে, বা এর আরও সূক্ষ্ম কারণ রয়েছে?
এছাড়াও, ভাল জেনারেলাইজেশনটি আমি যে 'প্রাকৃতিক' সমস্যাগুলি দেখছি তার একটি নিদর্শন?