দ্রুততম আরসিএনএন অ্যাঙ্কোরিং


10

দ্রুত আরসিএনএন পেপারে নোঙ্গর করার কথা বললে, "রেফারেন্স বাক্সগুলির পিরামিড" ব্যবহার করে তারা কী বোঝায় এবং এটি কীভাবে হয়? এর অর্থ কি এই যে ডাব্লু * এইচ * কে অ্যাঙ্কর পয়েন্টের প্রতিটিটিতে একটি বাউন্ডিং বক্স তৈরি করা হয়েছে?

যেখানে ডাব্লু = প্রস্থ, এইচ = উচ্চতা এবং কে = দিক অনুপাতের সংখ্যা * সংখ্যা স্কেল

কাগজে লিঙ্ক: https://arxiv.org/abs/1506.01497


এটি একটি খুব ভাল প্রশ্ন।
মাইকেল আর চেরনিক ০:0:০৮

উত্তর:


10

অ্যাঙ্কারস ব্যাখ্যা

নোঙ্গর

আপাতত, "রেফারেন্স বাক্সগুলির পিরামিড" এর অভিনব শব্দটিকে উপেক্ষা করুন, অ্যাঙ্করগুলি অঞ্চল প্রস্তাবনা নেটওয়ার্ককে খাওয়ানোর জন্য স্থির আকারের আয়তক্ষেত্র ছাড়া কিছুই নয়। অ্যাঙ্করগুলি সর্বশেষ সমাবর্তনীয় বৈশিষ্ট্য মানচিত্রের উপরে সংজ্ঞায়িত করা হয়, যার অর্থ তাদের মধ্যে রয়েছে তবে তারা চিত্রটির সাথে । প্রতিটি নোঙ্গরের জন্য আরপিএন সাধারণভাবে কোনও বস্তু রাখার সম্ভাবনা এবং চারটি সংশোধন স্থানাঙ্ককে অ্যাঙ্করটিকে ডান অবস্থানে নিয়ে যাওয়ার এবং পুনরায় আকার দেওয়ার সম্ভাবনা পূর্বাভাস দেয়। তবে কীভাবে অ্যাঙ্কারের জ্যামিতি আরপিএন দিয়ে কিছু করতে পারে? (HfeaturemapWfeaturemap)(k)

অ্যাঙ্করগুলি আসলে হ্রাস ফাংশনে উপস্থিত হয়

আরপিএন প্রশিক্ষণ দেওয়ার সময় প্রথমে প্রতিটি অ্যাঙ্করকে বাইনারি ক্লাসের লেবেল দেওয়া হয়। সঙ্গে নোঙ্গর অন্তর্ছেদ ওভার ইউনিয়ন ( হ্যানডনোট ) একটি স্থল-সত্য বক্স, একটি নির্দিষ্ট থ্রেশহোল্ড বেশী ওভারল্যাপ একটি পজিটিভ লেবেল (অনুরূপভাবে IoUs কম একটি প্রদত্ত থ্রেশহোল্ড লেবেল করা হবে নেতিবাচক চেয়ে নোঙ্গর) নির্ধারিত হয়। ক্ষত ফাংশন গণনা করতে এই লেবেলগুলি আরও ব্যবহৃত হয়:

আরপিএন লোকসান ফাংশন

p হ'ল আরপিএন এর শ্রেণিবিন্যাসের হেড আউটপুট যা কোনও বস্তু ধারণ করার জন্য অ্যাঙ্কারের সম্ভাবনা নির্ধারণ করে। নেতিবাচক লেবেলযুক্ত অ্যাঙ্করগুলির জন্য, রিগ্রেশন - থেকে কোনও ক্ষতি হয় না , স্থল-সত্যের লেবেলটি শূন্য। অন্য কথায় নেটওয়ার্ক নেতিবাচক অ্যাঙ্কারগুলির আউটপুটযুক্ত স্থানাঙ্কগুলির বিষয়ে চিন্তা করে না এবং যতক্ষণ না সেগুলি সঠিকভাবে শ্রেণিবদ্ধ করে ততক্ষণ খুশি। ইতিবাচক অ্যাঙ্করগুলির ক্ষেত্রে, রিগ্রেশন হ্রাস বিবেচনায় নেওয়া হয়। হ'ল আরপিএন-এর রিগ্রেশন হেড আউটপুট, ভবিষ্যদ্বাণী করা বাউন্ডিং বাক্সের 4 টি প্যারামিটারাইজড স্থানাঙ্কের প্রতিনিধিত্বকারী ভেক্টর। প্যারামিটারাইজেশন অ্যাঙ্কর জ্যামিতির উপর নির্ভর করে এবং নিম্নরূপ:pt

এখানে চিত্র বর্ণনা লিখুন

যেখানে এবং h বক্সের কেন্দ্র স্থানাঙ্ক এবং এর প্রস্থ এবং উচ্চতা বোঝায়। চলক এবং যথাক্রমে পূর্বাভাস বাক্স, অ্যাঙ্কর বক্স এবং গ্রাউন্ড-ট্রুথ বাক্সের জন্য (একইভাবে ) forx,y,w,x,xa,xy,w,h

এছাড়াও লক্ষ্য করুন যে কোনও লেবেলবিহীন অ্যাঙ্করগুলি শ্রেণিবদ্ধ বা পুনরায় আকারযুক্ত নয় এবং আরপিএম কেবল তাদের গণনার বাইরে ফেলে দেয়। একবার আরপিএন এর কাজ হয়ে গেলে, এবং প্রস্তাবগুলি তৈরি করা হয়, বাকিগুলি দ্রুত আর-সিএনএন-এর মতো হয়।


@ ফাতি আমাদের অনেক ক্লাস থাকলে কী হবে? যতদূর আমি জানি, ফাস্ট আর-সিএনএন-এ প্রতিটি প্রশিক্ষণ রোয়াকে একটি গ্রাউন্ড ট্রুথ ক্লাস দেওয়া হয়েছে। সুতরাং, আমি অনুমান করি এখানেও এখানে কিছু ঘটে থাকে?
থানাাসেড্ডার

@ ফাতি আপনি যা বলছেন তাতে আমি সম্পূর্ণরূপে একমত, সুতরাং আমি মনে করি আপনি আমার সাথে একমত হয়েছেন। আমি বলতে চাইছি দ্রুত আর-সিএনএন-এর মূল কাগজের লেখকরা সরলতার জন্য মাত্র দুটি ক্লাস (পটভূমি / অবজেক্ট) ব্যবহার করেছেন, আরপিএন কীভাবে কাজ করে তা বোঝানোর চেষ্টা করে, তাই না? সুতরাং, কেবল দুটি ক্লাস থাকার পরিবর্তে আমার কাছে মাত্র দুটি চেয়ে বেশি থাকতে পারে এবং আমি অনুমান করি যে আমি ক্রস এন্ট্রপি লোকসান ফাংশনটি গ্রহণ করতে পারি, তাই না?
থানাাসেড্ডার

@ থানাসিসিডার দ্রুত আর-সিএনএন-এর পিছনে মৌলিক ধারণাটি ছিল যে "যখন নিউরাল নেটগুলি সব কিছুতে খুব ভাল হয়, তবে কেন অঞ্চল প্রস্তাবের জন্য সেগুলি ব্যবহার করবেন না?"। দ্রুত আর-সিএনএনকে স্ট্যান্ডার্ড আর-সিএনএন এর সাথে তুলনা করলে একমাত্র পার্থক্য হ'ল রই প্রস্তাবগুলি - যা আবার একই পুরানো কৌশলগুলি ব্যবহার করে তৈরি করা হয়, যেমন সিলেক্ট সার্চ বা এজবক্সস - কাঁচা চিত্র থেকে কনভোলজিকাল বৈশিষ্ট্যগুলিতে ম্যাপ করা হয় এবং তারপরে খাওয়ানো হয় এফসিগুলি এইভাবে সিএনএন এর মাধ্যমে প্রতিটি রোইয়ের ফরোয়ার্ড পাস প্রক্রিয়া বাদ দেওয়া হয়।
মহান ফাতি

দ্রুত আর-সিএনএন-তে, আরপিএন যথাযথ অঞ্চলগুলির প্রস্তাব করতে শেখে । একবার আরপিএন হয়ে গেলে, বাকিগুলি দ্রুত আর-সিএনএন এর অনুরূপ, এবং এফসিগুলি প্রস্তাবগুলিকে শ্রেণিবদ্ধকরণ এবং পুনরায় জমা দেয়।
মহান ফাতি

নিবন্ধন করুন আমরা একই পৃষ্ঠায় আছি। আমি মনে করি আপনি আরপিএনে শ্রেণিবদ্ধ করতে পারেন, তবে এটি অপ্রয়োজনীয় যেহেতু এফসি নেট আবার শ্রেণিবিন্যাস করে, এবং জাঙ্ক প্রস্তাবগুলি প্রত্যাখ্যান করতে কোনও অসুবিধা নেই। পাইপলাইনটি সম্পর্কেও ভাবুন, আপনি কীভাবে শ্রেণিবদ্ধার স্কোরগুলি ব্যবহার করতে যাচ্ছেন এবং সেগুলি কীভাবে সহায়তা করবে? আমার চূড়ান্ত অবস্থানটি হল, (ব্যাকগ্রাউন্ড / অবজেক্ট) শ্রেণিবিন্যাসটি দ্রুত আর-সিএনএন-এ একটি ভিত্তি।
মহান ফাতি

1

আমি গতকাল এই কাগজটি পড়েছিলাম এবং প্রথম দর্শনে, এটি আমার কাছেও বিভ্রান্ত হয়েছিল। পুনরায় পড়ার পরে আমি এই সিদ্ধান্তে পৌঁছেছি:

  • মূল নেটওয়ার্কের শেষ স্তরটি (জেডএফ বা ভিজিজি -16) অঞ্চল প্রস্তাবনা নেটওয়ার্ক এবং রোআই পুলিংয়ের জন্য ইনপুট হিসাবে কাজ করে। ভিজিজি -16 এর ক্ষেত্রে এই শেষ কনভ লেয়ারটি একটি 7x7x512 (HxWxD)
  • এই স্তরটি একটি 3x3কনভ্যু স্তর সহ 512 মাত্রিক স্তরে ম্যাপ করা হয়েছে । আউটপুট আকার 7x7x512(প্যাডিং ব্যবহার করা হয়) হয়।
  • এই স্তরটি প্রতিটি অ্যাঙ্কর বাক্সের জন্য একটি রূপান্তর স্তর সহ একটি 7x7x(2k+4k)(উদাঃ 7x7x54) স্তরে ম্যাপ করা হয় ।1x1k

এখন কাগজের চিত্র 1 অনুসারে আপনার কাছে ইনপুট চিত্রগুলির একটি পিরামিড (বিভিন্ন স্কেল সহ একই চিত্র), ফিল্টারগুলির একটি পিরামিড (একই স্তরের বিভিন্ন স্তরের ফিল্টার) বা রেফারেন্স বাক্সগুলির একটি পিরামিড থাকতে পারে। দ্বিতীয়টি kঅঞ্চল প্রস্তাবনা নেটওয়ার্কের শেষ স্তরের অ্যাঙ্কর বাক্সগুলিকে বোঝায় । একে একে একে একে একে একে একে একে একে একে একে একে একে একে একে একে একে একে একে একে একে একে একে একে একে একে একে একে একে একে অপেসের উপরে তুলে নেওয়া যায় না। তবে একে অপরের শীর্ষে স্ট্যাক করা আছে।

সংক্ষেপে, প্রতিটি অ্যাঙ্কর পয়েন্টের জন্য ( HxWউদাহরণস্বরূপ 7x7) রেফারেন্স বাক্সগুলির একটি পিরামিড ( kউদাহরণস্বরূপ 9) ব্যবহৃত হয়।


তবে অ্যাঙ্কর বক্সটি আসলে কী? প্রতিটি নোঙ্গর বাক্সের উদ্দেশ্য কি: অগ্রণীতার অংশ হিসাবে বিবেচিত প্রতিটি অ্যাঙ্কর বক্সের অ্যাঙ্কর বক্সের প্রস্থ এবং উচ্চতাতে একটি ব-দ্বীপের পূর্বাভাস দেওয়ার জন্য আরপিএন-এর ইনপুট হিসাবে ব্যবহৃত হয়?
BadProgrammer

আরপিএন পূর্বাভাস অবস্থানের ডেল্টা শিফট এবং অবজেক্ট স্কোর উভয়েরই পূর্বাভাস দেয়। পরবর্তীকালে এটি ব্যাকগ্রাউন্ড বা সম্মুখভূমি (স্পষ্টভাবে পাদটীকা 3 দেখুন) স্পষ্টভাবে পূর্বাভাস দেওয়ার চেষ্টা করে।
পিটার

আপনি ব্যাখ্যা করতে পারেন যে একটি 3x3রূপান্তর স্তরটি কীভাবে অনুবাদ করে 7x7? প্রোটোটেক্সটে, এটি বলেছে প্যাডিংটি সর্বশেষ ভিজিজি 16 স্তরটির 1 টি is
ক্লিক
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.