একটি কনভোলশনাল নিউরাল নেটওয়ার্ক বিভিন্ন আকারের ইনপুট চিত্র হিসাবে নিতে পারে?

আমি চিত্র সনাক্তকরণের জন্য একটি কনভোলশন নেটওয়ার্কে কাজ করছি এবং আমি ভাবছিলাম যে আমি বিভিন্ন আকারের চিত্রগুলি ইনপুট করতে পারি কিনা (যদিও এর চেয়ে আলাদা নয়)।

এই প্রকল্পে: https://github.com/harvardnlp/im2markup

তারা বলে:

and group images of similar sizes to facilitate batching

প্রিপ্রোসেসিংয়ের পরেও, চিত্রগুলি এখনও বিভিন্ন আকারের, যা সূত্রের কিছু অংশ কাটাবে না বলে তা বোঝায়।

বিভিন্ন মাপ ব্যবহার করতে কোন সমস্যা আছে? যদি সেখানে থাকে তবে আমার কীভাবে এই সমস্যার সাথে যোগাযোগ করা উচিত (যেহেতু সূত্রগুলি সমস্ত একই চিত্রের আকারে ফিট করে না)?

যে কোনও ইনপুট অনেক প্রশংসা করা হবে

neural-networks conv-neural-network computer-vision

— গ্রাহাম স্লিক
সূত্র

উত্তর:

বিভিন্ন মাপ ব্যবহার করতে কোন সমস্যা আছে? যদি সেখানে থাকে তবে আমার কীভাবে এই সমস্যার সাথে যোগাযোগ করা উচিত (যেহেতু সূত্রগুলি সমস্ত একই চিত্রের আকারে ফিট করে না)?

এটি নিউরাল নেটওয়ার্কের আর্কিটেকচারের উপর নির্ভর করে। কিছু আর্কিটেকচার ধরে নেয় যে সমস্ত চিত্রের একই মাত্রা রয়েছে, অন্য (যেমন im2markup) এরকম অনুমান করে না। ইম 2মার্কআপটি বিভিন্ন প্রস্থের চিত্রগুলিকে আমার বিশ্বাস করার কোনও সমস্যা আনবে না এই বিষয়টি যেহেতু তারা একটি আরএনএন ব্যবহার করে যা কনভোলশন স্তরটির আউটপুট থেকে স্ক্যান করে।

ব্যাচিংয়ের সুবিধার্থে অনুরূপ আকারের গ্রুপ ইমেজ

এটি সাধারণত খুব বেশি প্যাডিং যুক্ত এড়ানোর মাধ্যমে জিনিসগুলিকে গতিময় করা।

— ফ্রাঙ্ক ডারনকোর্ট
সূত্র

আপনি কি প্রাক-প্রসেসিং পর্যায়ে চিত্রগুলি সহজেই স্কেলিংয়ের বিষয়টি বিবেচনা করেছেন? স্বজ্ঞাতভাবে, একটি আকারযুক্ত চিত্রের মুখোমুখি একজন মানুষ এখনও একই বৈশিষ্ট্যগুলি এবং অবজেক্টগুলি সনাক্ত করতে সক্ষম হবে এবং কোনও সিএনএন একটি ছোট আকারের চিত্রটিতে একই জিনিস করতে সক্ষম হবে না তার কোনও স্পষ্ট কারণ নেই।

আমি মনে করি যে আকারগুলি আকারের হিসাবে চিত্রগুলি স্কেলিং করা বিভিন্ন আকারের একটি কনভ্যুশনাল নেটওয়ার্ক হ্যান্ডেল চিত্রগুলি তৈরি করার চেষ্টা করার চেয়ে সহজ হতে পারে, যা আমি মনে করি যে এটি 'আসল গবেষণা' জমিটিতে থাকবে। আপনি অবশ্যই পুনরায় প্রশিক্ষণ ছাড়াই কোনও আকারের কনফিট হ্যান্ডেল চিত্রগুলির রূপান্তরকারী স্তরগুলি তৈরি করতে পারেন। যাইহোক, একটি কনফেটের আউটপুটটি সাধারণত এক ধরণের শ্রেণিবদ্ধ হবে, এবং এটি সম্ভবত কম ভাল কাজ করবে, আপনি যদি বিভিন্ন আকারের ইনপুটগুলি খাওয়ান তবে আমি কল্পনা করব।

আরেকটি উপায় হ'ল কেবল ছবিগুলি জিরো দিয়ে প্যাড করা। তবে স্বজ্ঞাতভাবে কল্পনা করুন যে আপনি কালো রঙের সীমানায় প্যাডযুক্ত একটি ছোট্ট ছবি দেখছেন বা আপনি জুম করতে পারেন, সুতরাং এটি আপনার ভিজ্যুয়াল ক্ষেত্রে যুক্তিসঙ্গত চাপ দেয় sub আপনি কোনটি করবেন? কোনটি দেখতে সহজ?

— হিউ পার্কিনস
সূত্র

ত্রুটি এবং বৈষম্যমূলক বৈশিষ্ট্যগুলি প্রবর্তন করার গুণমানকে কমিয়ে দেয় না, যদি ইতিমধ্যে চিত্রটি কম রেজোলিউশন হয় তবে স্কেলিং চিত্রের গুণমানকে এমন একটি পয়েন্টে হ্রাস করবে যেখানে এমনকি মানুষ সহজেই স্বীকৃতি দিতে পারে না তবে অনাবৃত চিত্রটি সনাক্তযোগ্য হতে পারে।

— বিক্রম ভাট

আপনার কাছে এমন কোনও চিত্রের উদাহরণ রয়েছে যা মানুষের কাছে স্বীকৃতিযোগ্য, যদি না আপনি স্কেলিং প্রয়োগ করেন, এবং তারপরে অজানা হয়ে যায়?

— হিউ পার্কিনস

আমি এটাও ভাবছি। কেরাস থেকে বিদ্যমান প্রশিক্ষিত মডেলটি ব্যবহার করার চেষ্টা করার সময়, আমি ভাবছি আমি হয় ইনসেপশনভি 3 ইন্টারফেসের (32x32 থেকে> 299x299 -> সিআইএফএআর 10) চিত্রটি স্কেল করতে পারব। আমি মনে করি স্কেলিংয়ের গুণটি হারাবে। তবে আমি মনে করি এটি করার উপযুক্ত উপায় হ'ল আউটপুট এফসি বাদ দেওয়া এবং ইনপুট শেপ 32x32 এ নির্দিষ্ট করা। আমি মনে করি এটির জন্য পুনরায় প্রশিক্ষণের প্রয়োজন হবে, কারণ ইনপুট স্তরের ওজন এলোমেলো হবে।

— জো কারসন

স্কেলিং মান হ্রাস করে তবে সাধারণীকরণে সহায়তা করে: ট্রেনিংয়ের আগে গাউস ব্লার প্রয়োগ করা হয়েছিল এমন অনেকগুলি কাগজপত্র স্বীকৃতি হিসাবে একটি উল্লেখযোগ্য লাভের কথা উল্লেখ করেছে । স্বজ্ঞাতভাবে আপনার কাছে আরও আলাদা ইনপুট নমুনা রয়েছে যা একটি একক "অস্পষ্ট" চিত্রের অনুরূপ, সুতরাং শ্রেণিবিন্যাসকে আরও শক্তিশালী করে তোলে।

— ম্যাথিউউ