এখানে মূল শব্দগুলি প্রিয়ার এবং স্কেল । একটি সাধারণ উদাহরণ হিসাবে, কল্পনা করুন আপনি কোনও ছবি থেকে কোনও ব্যক্তির বয়স সম্পর্কে ভবিষ্যদ্বাণী করার চেষ্টা করছেন। চিত্র এবং যুগের ডেটাসেটের সাহায্যে, আপনি ভবিষ্যদ্বাণীগুলি করতে গভীর-লার্নিং মডেলকে প্রশিক্ষণ দিতে পারেন। এটি বস্তুনিষ্ঠভাবে সত্যই অদক্ষ কারণ চিত্রটির 90% ব্যর্থহীন, এবং কেবলমাত্র ব্যক্তির সাথে অঞ্চলটি দরকারী। বিশেষত, ব্যক্তির মুখ, তাদের শরীর এবং সম্ভবত তাদের পোশাক।
অন্যদিকে, আপনি পরিবর্তে কোনও ব্যক্তির জন্য বাউন্ডিং বাক্সগুলি বের করতে, চিত্রটি ক্রপ করুন এবং তারপরে এটি নেটওয়ার্কের মাধ্যমে পাস করার জন্য প্রাক-প্রশিক্ষিত অবজেক্ট সনাক্তকরণ নেটওয়ার্ক ব্যবহার করতে পারেন। এই প্রক্রিয়াটি বিভিন্ন কারণে আপনার মডেলের যথার্থতা উল্লেখযোগ্যভাবে উন্নত করবে:
1) সমস্ত নেটওয়ার্ক সংস্থান (যেমন ওজন) প্রথমে ব্যক্তিকে প্রথম সন্ধান করার বিপরীতে, বয়সের পূর্বাভাসের আসল কাজটিতে মনোনিবেশ করতে পারে। এটি বিশেষত গুরুত্বপূর্ণ কারণ ব্যক্তির মুখে দরকারী বৈশিষ্ট্য রয়েছে। অন্যথায়, আপনার প্রয়োজন সূক্ষ্ম বৈশিষ্ট্যগুলি প্রথম কয়েকটি স্তরগুলিতে হারিয়ে যেতে পারে। তাত্ত্বিকভাবে একটি বড়-পর্যাপ্ত নেটওয়ার্ক এটি সমাধান করতে পারে, তবে এটি হ'ল অদক্ষ। ক্রপযুক্ত চিত্রটি মূল চিত্রের চেয়েও যথেষ্ট নিয়মিত। মূল চিত্রটিতে প্রচুর শব্দ রয়েছে, তবে ক্রপযুক্ত চিত্রের মধ্যে তার তর্কযোগ্য তাত্পর্যগুলি লক্ষ্যটির সাথে অনেক বেশি সংযুক্ত রয়েছে corre
2) ক্রপ করা চিত্র একই আছে স্বাভাবিক করা যায় স্কেল । এটি স্কেলিং সম্পর্কিত সমস্যাগুলির সাথে দ্বিতীয় নেটওয়ার্ককে সহায়তা করে, কারণ মূল চিত্রটিতে লোকেরা কাছাকাছি বা খুব দূরে ঘটতে পারে। প্রাক্কালনের স্কেলটি আগেই এটি তৈরি করে যাতে শস্যযুক্ত চিত্রটি এমন কোনও ব্যক্তির গ্যারান্টিযুক্ত যাতে পূর্ণ ফসলযুক্ত চিত্রটি পূর্ণ হয় (তারা যদি খুব দূরে থাকত তবে পিক্সিলটেড থাকা সত্ত্বেও)। এটি কীভাবে স্কেলকে সহায়তা করতে পারে তা দেখার জন্য, মূল চিত্রের অর্ধেক প্রস্থ এবং উচ্চতার অর্ধবৃত্তাকার একটি শরীরে প্রক্রিয়া করতে 4x কম পিক্সেল রয়েছে এবং তাই এই চিত্রটিতে প্রয়োগ করা একই নেটওয়ার্কের প্রতিটি স্তরে 4x মূল নেটওয়ার্কের গ্রহণযোগ্য ক্ষেত্র থাকবে।
উদাহরণস্বরূপ, kaggle ফুসফুস প্রতিযোগিতায়, একটি সাধারণ থিম শীর্ষ সমাধান ফুসফুস চিত্র যে তাদের যতটা সম্ভব মুণ্ডিত এবং প্রতিটি ফুসফুস উপাদান বিচ্ছিন্ন উপর preprocessing কিছু ছিল না। প্রভাবটি ঘনক হওয়ায় এটি 3D চিত্রগুলিতে বিশেষভাবে গুরুত্বপূর্ণ: প্রতিটি মাত্রার 20% সরিয়ে আপনি প্রায় অর্ধেক পিক্সেল থেকে মুক্তি পাবেন!