চিত্রগুলির বৈশিষ্ট্যগুলি যা তাদের গভীর নিউরাল নেটওয়ার্কের সাথে শ্রেণিবদ্ধকরণে সহায়ক করে তোলে সেগুলির মধ্যে অনেকগুলি বৈশিষ্ট্য রয়েছে (সম্ভবত কয়েক মিলিয়ন পিক্সেল আরজিবি, তীব্রতা ইত্যাদি নয়) এবং আপনার যদি সঠিক লেবেল থাকে তবে এটি গোলমাল তথ্য নয়। আজকাল ক্যামেরাগুলি খুব ভাল এবং তারা কোনও কিছুর ভুল-মাপার নয়। ইন্টারনেটকে ধন্যবাদ, আমাদের কাছে এখন অনেকগুলি সঠিক লেবেলযুক্ত চিত্র রয়েছে। একটি গভীর নেটওয়ার্ক নির্বিচারে জটিল ফাংশনগুলি প্রকাশ করতে পারে, যা গোলমাল সংক্রান্ত ডেটা নিয়ে একটি সমস্যা কারণ আপনি খুব সহজেই গোলমালকে পরাভূত করতে পারেন, তাই কেন অনেক শিক্ষণ পদ্ধতি জটিল মডেলগুলিকে শাস্তি দেয়। চিত্র স্বীকৃতি দেওয়ার ক্ষেত্রে, তবে, সত্যিকারের ফাংশনটি আসলে খুব জটিল বলে মনে হচ্ছে, কার্যকরী ফর্মটি দেখতে কেমন তা আমাদের কোনও ধারণা নেই, এবং অনেক ক্ষেত্রে প্রাসঙ্গিক বৈশিষ্ট্যগুলি কী তা আমরা জানি না।
এর অর্থ এই নয় যে আপনি চিত্রগুলির সাথে কোনও সম্পর্কযুক্ত ফাংশন শিখতে গভীর নেটওয়ার্কগুলি ব্যবহার করতে পারবেন না। ডাউনসাইড সম্পর্কে আপনার খুব যত্নশীল হওয়া দরকার, বেশিরভাগ ক্ষেত্রে এটি অত্যধিক মানানসই প্রবণ, তবে এটি গণনার দিক থেকে ব্যয়বহুল এবং প্রশিক্ষণের জন্য অনেক দিন সময় নিতে পারে (এই দিনে সমান্তরাল এসজিডি এবং জিপিইউ সহ কোনও সমস্যা নয়)। অন্যটি নেতিবাচক দিকটি হ'ল আপনার কাছে কোনও মডেলের ব্যাখ্যাযোগ্যতা খুব কম নয়, যা চিত্রের শ্রেণিবদ্ধকরণের পক্ষে আসলেই গুরুত্বপূর্ণ নয়। আমরা কেবল একটি চিম্প এবং ওরেঙ্গুতানের পার্থক্য সনাক্ত করার জন্য কম্পিউটারগুলি পাওয়ার চেষ্টা করছি। সূত্রটি সম্পর্কে মানুষের বোঝাপড়া কোনও বিষয় নয়। অন্যান্য ডোমেনগুলির জন্য, বিশেষত মেডিকেল ডায়াগনস্টিকস, নীতি গবেষণা ইত্যাদি ইত্যাদির জন্য আপনি মানুষের বোঝার প্রয়োজন বা এমনকি পেতে পারেন।