আমি গেমটির জন্য খুব দেরি করেছি, তবে সংযোগগুলি এড়িয়ে যাওয়ার ক্ষেত্রে কনভ্যুশনাল নিউরাল নেটওয়ার্কগুলিতে কিছু বর্তমান উন্নয়ন প্রতিফলিত করার জন্য আমি পোস্ট করতে চেয়েছিলাম ।
মাইক্রোসফ্ট রিসার্চ টিম সম্প্রতি ইমেজনেট ২০১ competition প্রতিযোগিতা জিতেছে এবং তাদের কয়েকটি মূল ধারণার বর্ণনা দিয়ে একটি চিত্র প্রযুক্তি প্রতিবেদন প্রকাশের জন্য ডিপ রেসিডুয়াল লার্নিং প্রকাশ করেছে ।
তাদের অন্যতম প্রধান অবদান গভীর অবশিষ্টাংশের এই ধারণাটি । এই গভীর অবশেষ স্তরগুলি স্কিপ সংযোগগুলি ব্যবহার করে । এই গভীর অবশেষ স্তরগুলি ব্যবহার করে তারা ইমেজনেট 2015-এর জন্য একটি 152 স্তর কৈফিয়ত নেট প্রশিক্ষণ দিতে সক্ষম হয়েছিল They এমনকি তারা সিআইএফএআর -10 এর জন্য 1000+ লেয়ার কনভ নেটও প্রশিক্ষণ দিয়েছিল।
সমস্যাটি যা তাদের অনুপ্রাণিত করেছিল তা নিম্নলিখিত:
যখন গভীর নেটওয়ার্কগুলি রূপান্তর শুরু করতে সক্ষম হয়, তখন একটি অবক্ষয় সমস্যাটি প্রকাশিত হয়: নেটওয়ার্কের গভীরতা বাড়ার সাথে সাথে নির্ভুলতা স্যাচুরেটেড হয়ে যায় (যা উদ্বেগজনক হতে পারে) এবং তারপরে দ্রুত হ্রাস পায়। অপ্রত্যাশিতভাবে, এই ধরনের অবক্ষয় অত্যধিক মানসিক চাপের কারণে হয় না এবং উপযুক্ত গভীর মডেলটিতে আরও স্তর যুক্ত করা উচ্চতর প্রশিক্ষণের ত্রুটির দিকে নিয়ে যায় ...
ধারণাটি হ'ল যদি আপনি একটি "অগভীর" নেটওয়ার্ক নেন এবং আরও গভীর স্তর তৈরি করতে আরও স্তরগুলিতে স্ট্যাক করেন তবে গভীর নেটওয়ার্কের পারফরম্যান্স কমপক্ষে অগভীর নেটওয়ার্কের মতো হওয়া উচিত যত গভীর গভীর নেটওয়ার্ক সঠিক অগভীর শিখতে পারে নতুন স্ট্যাকড স্তরগুলি সনাক্তকরণ স্তরগুলিতে সেট করে নেটওয়ার্ক (বাস্তবে আমরা জানি যে সম্ভবত কোনও আর্কিটেকচারাল প্রিয়ার বা বর্তমান অপ্টিমাইজেশন পদ্ধতি ব্যবহার না হওয়ার সম্ভাবনা খুব বেশি)। তারা পর্যবেক্ষণ করেছেন যে এটি ছিল না এবং প্রশিক্ষণ ত্রুটি কখনও কখনও আরও খারাপ হয়ে যায় যখন তারা একটি অগভীর মডেলের উপরে আরও স্তর সজ্জিত করে।
সুতরাং এটি তাদেরকে স্কিপ সংযোগগুলি ব্যবহার করতে এবং তাদের নেটওয়ার্ককে পরিচয় স্তর থেকে বিচ্যুতি শিখতে দেওয়ার জন্য তথাকথিত গভীর অবশেষ স্তরগুলি ব্যবহার করতে অনুপ্রাণিত করেছিল , সুতরাং পরিচয় থেকে পার্থক্য উল্লেখ করে এখানে অবশিষ্টাংশ , অবশিষ্টাংশ শব্দটি রয়েছে ।
তারা নিম্নলিখিত উপায়ে স্কিপ সংযোগগুলি প্রয়োগ করে:
এফ( এক্স ) : = এইচ ( এক্স ) - এক্সএফ( x ) + x = এইচ ( এক্স )এফ( এক্স )এইচ ( এক্স )
এই উপায়ে স্কিপ সংযোগের মাধ্যমে গভীর অবশেষ স্তরগুলির ব্যবহার তাদের গভীর জালগুলিকে আনুমানিক পরিচয় স্তরগুলি শিখতে দেয়, যদি তা হয় তবে এটি সর্বোত্তম বা স্থানীয়ভাবে অনুকূল is প্রকৃতপক্ষে তারা দাবি করে যে তাদের অবশিষ্ট স্তরগুলি:
আমরা পরীক্ষা-নিরীক্ষা দ্বারা দেখি (চিত্র 7) সাধারণভাবে শিখে নেওয়া অবশিষ্ট কর্মের ছোট্ট প্রতিক্রিয়া রয়েছে
কেন এটি ঠিক কাজ করে তাদের সঠিক উত্তর নেই। পরিচয় স্তরগুলি সর্বোত্তম হওয়ার সম্ভাবনা খুব কম, তবে তারা বিশ্বাস করেন যে এই অবশিষ্ট স্তরগুলি ব্যবহার করা সমস্যাটিকে পূর্বশর্তে সহায়তা করে এবং "স্ক্র্যাচ থেকে" শিখার চেয়ে পরিচয় ম্যাপিংয়ের তুলনায় একটি রেফারেন্স / বেসলাইন দিয়ে নতুন ফাংশন শিখতে আরও সহজ easier পরিচয় বেসলাইন ব্যবহার না করে। কে জানে. তবে আমি ভেবেছিলাম এটি আপনার প্রশ্নের উত্তর হবে।
যাইহোক, অন্ধকারে: সাশকেলোর উত্তর কি আরও ভাল?