গুগল ইনসেপশন মডেল: একাধিক সফটম্যাক্স কেন?


13

গুগল ইনসেপশন মডেলের টপোলজি এখানে পাওয়া যাবে: গুগল ইনসেপশন নেটওয়ার্ক

আমি লক্ষ্য করেছি যে এই মডেলটিতে 3 টি সফটম্যাক্স স্তর রয়েছে (# 154, # 152, # 145), এবং তাদের মধ্যে 2 এই মডেলটির প্রারম্ভিক এক ধরণের প্রস্থান।

আমি যা জানি, সফটম্যাক্স স্তরটি চূড়ান্ত আউটপুট জন্য, তাই কেন এত কিছু আছে? অন্যান্য 2 স্তর উদ্দেশ্য কি?

উত্তর:


27

সংক্ষিপ্ত উত্তর: গভীর আর্কিটেকচার এবং বিশেষত গুগলনেট (22 ​​স্তর) প্রশিক্ষণ চলাকালীন (ব্যাক-প্রসারণ অ্যালগরিদম) নষ্ট হওয়া গ্রেডিয়েন্টগুলির সমস্যায় রয়েছে। গুগলনেটের প্রকৌশলীরা মধ্যবর্তী স্তরগুলিতে শ্রেণিবদ্ধকারী যুক্ত করে এই সমস্যাটির সমাধান করেছেন, যেমন চূড়ান্ত ক্ষতিটি মধ্যবর্তী ক্ষতির এবং চূড়ান্ত ক্ষতির সংমিশ্রণ। এই কারণেই আপনি নেটওয়ার্কের শেষ স্তর হিসাবে সাধারণ একক স্তরটির বিপরীতে মোট তিনটি ক্ষতির স্তর দেখতে পান।

দীর্ঘ উত্তর: ক্লাসিক মেশিন লার্নিংয়ে সাধারণত বৈশিষ্ট্য ইঞ্জিনিয়ারিং এবং শ্রেণিবিন্যাসের মধ্যে পার্থক্য থাকে। নিউরাল নেটওয়ার্কগুলি "শেষ থেকে শেষ" সমস্যাগুলি সমাধান করার দক্ষতার জন্য সর্বাধিক বিখ্যাত, অর্থাত্ তারা ডেটার জন্য উপস্থাপনা শেখার এবং শ্রেণিবদ্ধ প্রশিক্ষণ দেওয়ার পর্যায়ে একত্রিত হয়। সুতরাং, আপনি একটি স্ট্যান্ডার্ড আর্কিটেকচার (উদাহরণস্বরূপ, অ্যালেক্সনেট) একটি "প্রতিনিধিত্ব শেখার" পর্যায়ে (পূর্ব থেকে শেষ অবধি স্তরগুলি) এবং একটি "শ্রেণিবদ্ধকরণ" পর্বের সমন্বয়ে গঠিত একটি নিউরাল নেটওয়ার্কের কথা ভাবতে পারেন, যা প্রত্যাশা অনুযায়ী অন্তর্ভুক্ত রয়েছে একটি ক্ষতি ফাংশন।

গভীর নেটওয়ার্ক তৈরি করার সময়, "বিলুপ্ত গ্রেডিয়েন্টস" সমস্যা হিসাবে একটি সমস্যা তৈরি হয়। এটি আসলে নিউরাল নেটওয়ার্কগুলির সাথে নির্দিষ্ট নয়; পরিবর্তে যে কোনও গ্রেডিয়েন্ট ভিত্তিক শেখার পদ্ধতিতে। এটি তুচ্ছ নয় এবং তাই এটি নিজের জন্য যথাযথ ব্যাখ্যার দাবিদার; একটি ভাল রেফারেন্স জন্য এখানে দেখুন । স্বজ্ঞাতভাবে, আপনি নেটওয়ার্কের অভ্যন্তরে যত গভীরভাবে যান কম এবং কম তথ্য বহনকারী গ্রেডিয়েন্টগুলি সম্পর্কে ভাবতে পারেন, যেহেতু আমরা "ব্যাক-প্রপ ব্যবহার করে কেবলমাত্র গ্রেডিয়েন্টের উপর ভিত্তি করে নেটওয়ার্কের পরামিতিগুলি (ওজন) টিউন করি since "অ্যালগরিদম।

গুগলনেটের বিকাশকারীরা কীভাবে এই সমস্যাটি পরিচালনা করেছিলেন? তারা এই সত্যটি স্বীকৃতি দিয়েছিল যে এটি কেবলমাত্র চূড়ান্ত স্তরগুলির বৈশিষ্ট্যই নয় যা সমস্ত বৈষম্যমূলক তথ্য বহন করে: মধ্যবর্তী বৈশিষ্ট্যগুলিও বিভিন্ন লেবেলকে বৈষম্য করতে সক্ষম; এবং সবচেয়ে গুরুত্বপূর্ণ, তাদের মানগুলি আরও "নির্ভরযোগ্য" যেহেতু তারা পূর্ববর্তী স্তরগুলি থেকে উত্তোলন করা হয় যেখানে গ্রেডিয়েন্ট আরও তথ্য বহন করে। এই স্বজ্ঞাততার ভিত্তিতে তারা দুটি মধ্যবর্তী স্তরগুলিতে "সহায়ক শ্রেণিবদ্ধ" যুক্ত করেছে " আপনি আপনার প্রশ্নের সাথে উল্লেখ করেছেন এমন নেটওয়ার্কের মাঝামাঝি সময়ে "প্রারম্ভিক পালানো" ক্ষতি স্তরগুলির কারণ এটি।

মোট ক্ষতি তখন এই তিনটি ক্ষতি স্তরগুলির সংমিশ্রণ। আমি মূল নিবন্ধ থেকে উদ্ধৃতি:

এই শ্রেণিবদ্ধীরা ইনসেপশন (4 এ) এবং (4 ডি) মডিউলগুলির আউটপুট শীর্ষে রাখা ছোট কনভোলিউশনাল নেটওয়ার্কগুলির ফর্ম গ্রহণ করে। প্রশিক্ষণ চলাকালীন, তাদের ক্ষতি একটি ছাড়ের ওজন সহ নেটওয়ার্কের মোট ক্ষতির সাথে যুক্ত হয় (সহায়ক শ্রেণিবদ্ধের লোকসানগুলি ০.৩ দ্বারা ওজন করা হয়েছিল)। অনুমানের সময়, এই সহায়ক নেটওয়ার্কগুলি বাতিল করা হয়।

দৃশ্যরূপে:

এখানে চিত্র বর্ণনা লিখুন


1
"... পূর্ববর্তী স্তরগুলিতে যেখানে গ্রেডিয়েন্ট আরও তথ্য বহন করে" - কেন এটি?
সর্বোচ্চ

2

@ গালুশ 33 এর উত্তর ছাড়াও: আমার কাছে মনে হয় সহায়িক শ্রেণিবদ্ধরা চূড়ান্ত আউটপুট শ্রেণিবদ্ধ হিসাবে একই লেবেলগুলি ব্যবহার করে। উত্স: https://pdfs.semanticscholar.org/0b99/d677883883584d9a328f6f2d54738363997a.pdf এ স্লাইড 34

পূর্বে, আমি ভেবেছিলাম যে এই সহায়ক ক্লাসিফায়ারগুলি অন্য ধরণের লেবেল ব্যবহার করে (যেমন সাইবেরিয়ান হস্কির পরিবর্তে কেবল কুকুর)।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.