আমি এই শব্দগুলি বেশ কয়েকটি প্রকাশনায় পড়েছি এবং আমি সেই পদগুলির জন্য কিছু সুন্দর সংজ্ঞা রাখতে চাই যা এটি স্পষ্ট করে দেয় যে বস্তু সনাক্তকরণ বনাম স্থানীয়করণের বনাম স্থানীয়করণের মধ্যে পার্থক্য কী। আপনার সংজ্ঞাগুলির জন্য উত্স দিতে পারলে ভাল লাগবে।
আমি এই শব্দগুলি বেশ কয়েকটি প্রকাশনায় পড়েছি এবং আমি সেই পদগুলির জন্য কিছু সুন্দর সংজ্ঞা রাখতে চাই যা এটি স্পষ্ট করে দেয় যে বস্তু সনাক্তকরণ বনাম স্থানীয়করণের বনাম স্থানীয়করণের মধ্যে পার্থক্য কী। আপনার সংজ্ঞাগুলির জন্য উত্স দিতে পারলে ভাল লাগবে।
উত্তর:
আমি, অবজেক্ট ডিটেকশন, অবজেক্ট রিকগনিশন, অবজেক্ট বিভাগীকরণ, চিত্র বিভাগকরণ এবং শব্দার্থক চিত্র বিভাগে প্রচুর কাগজপত্র পড়েছি এবং এখানে আমার সিদ্ধান্তগুলি যা সত্য হতে পারে না:
অবজেক্টের স্বীকৃতি: প্রদত্ত চিত্রটিতে আপনাকে সমস্ত অবজেক্ট সনাক্ত করতে হবে (বস্তুর একটি সীমাবদ্ধ শ্রেণি আপনার ডেটাশেটের উপর নির্ভর করে), সেগুলি একটি বাউন্ডিং বাক্সের সাথে স্থানীয়করণ করুন এবং লেবেলযুক্ত সেই সীমানা বাক্সটিকে লেবেল করুন। নীচের চিত্রটিতে আপনি শিল্পের অবজেক্টের স্বীকৃতি দানের একটি সাধারণ আউটপুট দেখতে পাবেন।
অবজেক্ট ডিটেকশন: এটি অবজেক্ট রিকগনিশন এর মতো তবে এই টাস্কে আপনার কাছে মাত্র দুটি ক্লাস অবজেক্ট শ্রেণিবদ্ধকরণ যার অর্থ অবজেক্ট বাউন্ডিং বাক্স এবং অ-অবজেক্ট বাউন্ডিং বাক্স। উদাহরণস্বরূপ গাড়ী শনাক্তকরণ: আপনাকে প্রদত্ত চিত্রে সমস্ত গাড়ি তাদের সীমানা বাক্সের সাহায্যে সনাক্ত করতে হবে।
অবজেক্ট বিভাজন: অবজেক্টের স্বীকৃতির মতো আপনি কোনও চিত্রের সবগুলি জিনিসকে চিনতে পারবেন তবে আপনার আউটপুটটিতে চিত্রটির পিক্সেল শ্রেণিবদ্ধকরণ করা উচিত।
চিত্র বিভাজন: চিত্র বিভাগে আপনি চিত্রের অঞ্চলগুলিকে ভাগ করবেন। আপনার আউটপুট এমন চিত্রের বিভাগ এবং অঞ্চলটিকে লেবেল করবে না যা একে অপরের সাথে সামঞ্জস্যপূর্ণ একই বিভাগে থাকা উচিত। কোনও চিত্র থেকে সুপার পিক্সেল উত্তোলন করা এই কার্য বা ফোরগ্রাউন্ড-পটভূমি বিভাগের উদাহরণ।
শব্দার্থক বিভাগে: শব্দার্থক বিভাগে আপনাকে প্রতিটি পিক্সেলকে একটি শ্রেণীর অবজেক্ট (গাড়ি, ব্যক্তি, কুকুর, ...) এবং অ-অবজেক্ট (জল, আকাশ, রাস্তা, ...) দিয়ে লেবেল দিতে হয়। আমি শব্দার্থে বিভাগে অন্য শব্দগুলি আপনি চিত্রের প্রতিটি অঞ্চলকে লেবেল করবেন।
যেহেতু এই সমস্যাটি এখনও 2019 সালে এখনও পুরোপুরি পরিষ্কার নয়, এবং এটি নতুন এমএল-লার্নার্স চয়ন করতে সহায়তা করতে পারে, তাই এখানে পার্থক্যগুলি দেখানো একটি খুব ভাল চিত্র:
(স্থানীয়করণ হ'ল "ভেড়া" শ্রেণীর চারপাশে আবদ্ধ বাক্স, চিত্রটির একটি শ্রেণিবদ্ধকরণ সম্পন্ন হওয়ার পরে) উত্স: টোওয়ার্ডড্যাটাসায়েন্স ডটকম
আমি বিশ্বাস করি যে কেবল "স্থানীয়করণ" এর অর্থ "একক বস্তুর শ্রেণিবিন্যাস + 2 ডি বা 3 ডি বাউন্ডিং বাক্স ব্যবহার করে স্থানীয়করণ"।
"অবজেক্ট সনাক্তকরণ" প্রশ্নে জ্ঞাত অবজেক্ট ক্লাসগুলির সমস্ত উদাহরণকে শ্রেণীবদ্ধ করছে।
শব্দার্থক বিভাগটি মূলত প্রতি পিক্সেল শ্রেণিবদ্ধকরণ।
এছাড়াও জড়িত মেট্রিকগুলি উত্স: উত্স: https://devblogs.nvidia.com/parallelforall/DP-learning-object-detection-digits/ )
যথার্থতা হ'ল যথাযথভাবে চিহ্নিত সামগ্রীর পূর্বাভাসযুক্ত সামগ্রীর সংখ্যার অনুপাত (সত্য ধনাত্মককে সত্য ধনাত্মক এবং মিথ্যা ধনাত্মকগুলির অনুপাত)।
পুনরুদ্ধার হ'ল চিত্রগুলিতে প্রকৃত অবজেক্টের মোট সংখ্যার সাথে সঠিকভাবে চিহ্নিত বস্তুর অনুপাত (সত্য ধনাত্মক এবং সত্য negativeণাত্মক থেকে সত্যের ধনাত্মক অনুপাত)।
এমএপি: একটি সরলিকৃত গড় গড় যথার্থ স্কোর যথাযথতার উপর ভিত্তি করে ডিটেকটনেটের জন্য পুনর্বিবেচনা। নেটওয়ার্ক আগ্রহের জিনিসগুলির প্রতি সংবেদনশীল এবং মিথ্যা অ্যালার্মগুলি কীভাবে এড়ানো যায় তার পক্ষে এটি একটি ভাল সম্মিলিত ব্যবস্থা measure
স্থানীয়করণ শব্দটি অস্পষ্ট। আমি অবজেক্ট শনাক্তকরণ এবং শব্দার্থ বিভাজন পদগুলি আলোচনা করব।
অবজেক্ট সনাক্তকরণে, প্রতিটি চিত্র পিক্সেল শ্রেণিবদ্ধ করা হয় তা কোনও নির্দিষ্ট শ্রেণীর (যেমন মুখের) অন্তর্ভুক্ত কিনা। অনুশীলনে, পিক্সেলকে একত্রে গ্রুপিং করে বাউন্ডিং বক্সগুলি গঠনের মাধ্যমে এটি সরল করা হয়েছে সুতরাং বাউন্ডিং বাক্সটি যদি বস্তুর চারপাশে আঁটসাঁট ফিট থাকে তবে সিদ্ধান্ত নিতে সমস্যা হ্রাস করুন। পিক্সেলগুলি একাধিক অবজেক্টের (যেমন মুখ, চোখ) এর সাথে সম্পর্কিত হতে পারে তাই তারা একই সাথে একাধিক লেবেল ধরে রাখতে পারে।
অন্যদিকে, শব্দার্থক বিভাগে প্রতিটি চিত্র পিক্সেলের ক্লাস লেবেল অন্তর্ভুক্ত রয়েছে। তারা সীমানা বাক্স সরলীকরণকে অন্তর্ভুক্ত না করায় তারা যথাযথভাবে স্থানীয়করণের মঞ্জুরি দেয়, তারা পিক্সেল প্রতি একক লেবেল কঠোরভাবে প্রয়োগ করে।
শব্দার্থক বিভাজন: চিত্রের অংশগুলি একসাথে একই বস্তু শ্রেণীর অন্তর্ভুক্ত করার কাজ। যেমন: রাস্তার লক্ষণ সনাক্তকরণ