নিউট্রাল নেটওয়ার্কগুলিতে কীভাবে বাটকানো স্থপতিগুলি কাজ করে?

21

আমরা রেসনেট পেপারে পাওয়া টাইপ হিসাবে একটি বাধা-স্থিত স্থাপত্যটিকে সংজ্ঞায়িত করি যেখানে [দুটি 3x3 কনভ লেয়ার] প্রতিস্থাপন করা হয়েছে [এক 1x1 ক্যানুয়াম, একটি 3x3 ক্যানুয়র এবং অন্য 1x1 ক্যানুয়াল স্তর]।

আমি বুঝতে পেরেছি যে 1x1 কনভের স্তরগুলি মাত্রা হ্রাস (এবং পুনরুদ্ধার) এর ফর্ম হিসাবে ব্যবহৃত হয়, যা অন্য পোস্টে ব্যাখ্যা করা হয়েছে । তবে, কেন এই কাঠামোটি মূল বিন্যাসের মতো কার্যকর why সে সম্পর্কে আমি অস্পষ্ট।

কিছু ভাল ব্যাখ্যায় অন্তর্ভুক্ত থাকতে পারে: কোন ধাপের দৈর্ঘ্য ব্যবহৃত হয় এবং কোন স্তরে ব্যবহৃত হয়? প্রতিটি মডিউল উদাহরণ ইনপুট এবং আউটপুট মাত্রা কি? উপরের চিত্রটিতে কীভাবে 56x56 বৈশিষ্ট্য মানচিত্র উপস্থাপিত হয়? -৪-ডি কি ফিল্টারগুলির সংখ্যা বোঝায়, কেন এটি 256-ডি ফিল্টার থেকে পৃথক হয়? প্রতিটি স্তরে কত ওজন বা এফএলওপি ব্যবহার করা হয়?

যে কোনও আলোচনা প্রশংসিত হয়!

residuals deep-learning conv-neural-network

— derekchen14
সূত্র

আমি মনে করি এটি সাধারণকরণ এবং ওভার ফিটিং প্রতিরোধে সহায়তা করতে পারে। তবে এটি কেবল একটি অস্পষ্ট স্মৃতি।

— ক্রিস

5

গণনামূলক বিবেচনার কারণে অটল আর্কিটেকচারটি খুব গভীর নেটওয়ার্কগুলিতে ব্যবহৃত হয়।

আপনার প্রশ্নের উত্তর দিতে:

56x56 বৈশিষ্ট্য মানচিত্রের উপরের চিত্রটিতে উপস্থাপন করা হয় না। এই ব্লকটি একটি রেজনেট থেকে ইনপুট আকার 224x224 সহ নেওয়া হয়েছে। 56x56 হ'ল কিছু মধ্যবর্তী স্তরতে ইনপুটটির ডাউনস্যাম্পল্ড সংস্করণ।
-৪-ডি বৈশিষ্ট্য মানচিত্রের সংখ্যা (ফিল্টার) বোঝায়। বাটলনাকের আর্কিটেকচারটিতে 256-ডি রয়েছে, এটি কেবলমাত্র গভীর নেটওয়ার্কের জন্য কারণ এটি সম্ভবত উচ্চতর রেজোলিউশন চিত্রটিকে ইনপুট হিসাবে গ্রহণ করে এবং তাই আরও বৈশিষ্ট্যের মানচিত্রের প্রয়োজন হয়।
পড়ুন এই চিত্র ResNet 50 প্রতিটি বোতলের স্তর পরামিতি জন্য।

— Newstein
সূত্র

1

ভবিষ্যতের পাঠকদের জন্য, আমার উল্লেখ করা উচিত যে আমি মনে করি যে 1x1 ক্রুগুলির 56x56 এর (ডাব্লুএক্সএইচ) সংরক্ষণের জন্য স্ট্রাইড = 1 এবং প্যাড = 0 রয়েছে। একইভাবে, 3x3 কনসটির আকারও সংরক্ষণের জন্য স্ট্রাইড = 1 এবং প্যাড = 1 রয়েছে।

— derekchen14

তবুও আমি বুঝতে পারি না মনে হচ্ছে উভয়ের উভয়েরই একই পরিমাণের প্যারামিটার রয়েছে, সেক্ষেত্রে আমি এখনও বুটলেনিক স্তরটির উদ্দেশ্য বুঝতে পারি না।

— ব্যবহারকারী570593

-1

আমি সত্যই মনে করি যে নিউস্টেইনের উত্তরের ২ য় পয়েন্টটি বিভ্রান্তিমূলক।

64-dঅথবা 256-dপড়ুন উচিত চ্যানেলের সংখ্যা এর ইনপুট বৈশিষ্ট্য মানচিত্র - না ইনপুট বৈশিষ্ট্য সংখ্যা মানচিত্র তৈরী করে।

উদাহরণ হিসাবে ওপি-র প্রশ্নের "বাধা" ব্লক (চিত্রটির ডানদিকে) বিবেচনা করুন:

256-dএর মানে হল যে মাত্রার সাথে আমাদের একটি একক ইনপুট বৈশিষ্ট্য মানচিত্র রয়েছে n x n x 256। 1x1, 64চিত্রে মানে 64 ফিল্টার , প্রতিটি 1x1এবং আছে 256চ্যানেল ( 1x1x256)।
সুতরাং এখানে আমরা দেখতে পাচ্ছি যে 1x1x256একটি ইনপুট বৈশিষ্ট্য মানচিত্র ( n x n x 256) সহ একটি একক ফিল্টার ( ) এর কনভোলশন আমাদের n x nআউটপুট দেয় ।
এখন আমাদের 64ফিল্টার রয়েছে, সুতরাং, আউটপুটগুলি স্ট্যাক করে আউটপুট বৈশিষ্ট্য মানচিত্রের মাত্রা হয় n x n x 64।

সম্পাদিত:

@ মিশেল চেরনিক: ঠিক আছে, তবে এটি একটি আংশিক উত্তর হবে, কারণ আমি গৃহীত উত্তরটি সংশোধন করার চেষ্টা করেছি। আমার আংশিক উত্তরটি দেখার জন্য আপনি কি সময় নিতে পারেন এবং আমি সঠিকভাবে বুঝতে পারলে আমাকে জানাতে পারেন?

— জ্বলে উঠা
সূত্র

খ্যাতি নির্বিশেষে আপনার মন্তব্যগুলির জন্য উত্তর ব্যবহার করা উচিত নয়।

— মাইকেল আর চেরনিক