স্লিপ-লেয়ার সংযোগ সহ নিউরাল নেটওয়ার্ক


26

আমি নিউরাল নেটওয়ার্কগুলির সাথে প্রতিরোধে আগ্রহী।

শূন্য লুকানো নোড + স্লিপ-স্তর সংযোগ সহ নিউরাল নেটওয়ার্কগুলি লিনিয়ার মডেল।

একই স্নায়বিক জাল সম্পর্কে কি তবে লুকানো নোড সঙ্গে? আমি ভাবছি স্কিপ-লেয়ার সংযোগগুলির ভূমিকা কী হবে?

স্বজ্ঞাতভাবে, আমি বলব যে আপনি যদি স্কিপ-স্তর সংযোগগুলি অন্তর্ভুক্ত করেন তবে চূড়ান্ত মডেলটি একটি রৈখিক মডেল + কিছু অ-লিনিয়ার অংশের যোগফল করে।

নিউরাল নেটগুলিতে স্কিপ-লেয়ার সংযোগ যুক্ত করার কোনও সুবিধা বা অসুবিধা আছে কি?

উত্তর:


38

আমি গেমটির জন্য খুব দেরি করেছি, তবে সংযোগগুলি এড়িয়ে যাওয়ার ক্ষেত্রে কনভ্যুশনাল নিউরাল নেটওয়ার্কগুলিতে কিছু বর্তমান উন্নয়ন প্রতিফলিত করার জন্য আমি পোস্ট করতে চেয়েছিলাম ।

মাইক্রোসফ্ট রিসার্চ টিম সম্প্রতি ইমেজনেট ২০১ competition প্রতিযোগিতা জিতেছে এবং তাদের কয়েকটি মূল ধারণার বর্ণনা দিয়ে একটি চিত্র প্রযুক্তি প্রতিবেদন প্রকাশের জন্য ডিপ রেসিডুয়াল লার্নিং প্রকাশ করেছে

তাদের অন্যতম প্রধান অবদান গভীর অবশিষ্টাংশের এই ধারণাটি । এই গভীর অবশেষ স্তরগুলি স্কিপ সংযোগগুলি ব্যবহার করে । এই গভীর অবশেষ স্তরগুলি ব্যবহার করে তারা ইমেজনেট 2015-এর জন্য একটি 152 স্তর কৈফিয়ত নেট প্রশিক্ষণ দিতে সক্ষম হয়েছিল They এমনকি তারা সিআইএফএআর -10 এর জন্য 1000+ লেয়ার কনভ নেটও প্রশিক্ষণ দিয়েছিল।

সমস্যাটি যা তাদের অনুপ্রাণিত করেছিল তা নিম্নলিখিত:

যখন গভীর নেটওয়ার্কগুলি রূপান্তর শুরু করতে সক্ষম হয়, তখন একটি অবক্ষয় সমস্যাটি প্রকাশিত হয়: নেটওয়ার্কের গভীরতা বাড়ার সাথে সাথে নির্ভুলতা স্যাচুরেটেড হয়ে যায় (যা উদ্বেগজনক হতে পারে) এবং তারপরে দ্রুত হ্রাস পায়। অপ্রত্যাশিতভাবে, এই ধরনের অবক্ষয় অত্যধিক মানসিক চাপের কারণে হয় না এবং উপযুক্ত গভীর মডেলটিতে আরও স্তর যুক্ত করা উচ্চতর প্রশিক্ষণের ত্রুটির দিকে নিয়ে যায় ...

ধারণাটি হ'ল যদি আপনি একটি "অগভীর" নেটওয়ার্ক নেন এবং আরও গভীর স্তর তৈরি করতে আরও স্তরগুলিতে স্ট্যাক করেন তবে গভীর নেটওয়ার্কের পারফরম্যান্স কমপক্ষে অগভীর নেটওয়ার্কের মতো হওয়া উচিত যত গভীর গভীর নেটওয়ার্ক সঠিক অগভীর শিখতে পারে নতুন স্ট্যাকড স্তরগুলি সনাক্তকরণ স্তরগুলিতে সেট করে নেটওয়ার্ক (বাস্তবে আমরা জানি যে সম্ভবত কোনও আর্কিটেকচারাল প্রিয়ার বা বর্তমান অপ্টিমাইজেশন পদ্ধতি ব্যবহার না হওয়ার সম্ভাবনা খুব বেশি)। তারা পর্যবেক্ষণ করেছেন যে এটি ছিল না এবং প্রশিক্ষণ ত্রুটি কখনও কখনও আরও খারাপ হয়ে যায় যখন তারা একটি অগভীর মডেলের উপরে আরও স্তর সজ্জিত করে।

সুতরাং এটি তাদেরকে স্কিপ সংযোগগুলি ব্যবহার করতে এবং তাদের নেটওয়ার্ককে পরিচয় স্তর থেকে বিচ্যুতি শিখতে দেওয়ার জন্য তথাকথিত গভীর অবশেষ স্তরগুলি ব্যবহার করতে অনুপ্রাণিত করেছিল , সুতরাং পরিচয় থেকে পার্থক্য উল্লেখ করে এখানে অবশিষ্টাংশ , অবশিষ্টাংশ শব্দটি রয়েছে ।

তারা নিম্নলিখিত উপায়ে স্কিপ সংযোগগুলি প্রয়োগ করে: এখানে চিত্র বর্ণনা লিখুন

এফ(এক্স): =এইচ(এক্স)-এক্সএফ(এক্স)+ +এক্স=এইচ(এক্স)এফ(এক্স)এইচ(এক্স)

এই উপায়ে স্কিপ সংযোগের মাধ্যমে গভীর অবশেষ স্তরগুলির ব্যবহার তাদের গভীর জালগুলিকে আনুমানিক পরিচয় স্তরগুলি শিখতে দেয়, যদি তা হয় তবে এটি সর্বোত্তম বা স্থানীয়ভাবে অনুকূল is প্রকৃতপক্ষে তারা দাবি করে যে তাদের অবশিষ্ট স্তরগুলি:

আমরা পরীক্ষা-নিরীক্ষা দ্বারা দেখি (চিত্র 7) সাধারণভাবে শিখে নেওয়া অবশিষ্ট কর্মের ছোট্ট প্রতিক্রিয়া রয়েছে

কেন এটি ঠিক কাজ করে তাদের সঠিক উত্তর নেই। পরিচয় স্তরগুলি সর্বোত্তম হওয়ার সম্ভাবনা খুব কম, তবে তারা বিশ্বাস করেন যে এই অবশিষ্ট স্তরগুলি ব্যবহার করা সমস্যাটিকে পূর্বশর্তে সহায়তা করে এবং "স্ক্র্যাচ থেকে" শিখার চেয়ে পরিচয় ম্যাপিংয়ের তুলনায় একটি রেফারেন্স / বেসলাইন দিয়ে নতুন ফাংশন শিখতে আরও সহজ easier পরিচয় বেসলাইন ব্যবহার না করে। কে জানে. তবে আমি ভেবেছিলাম এটি আপনার প্রশ্নের উত্তর হবে।

যাইহোক, অন্ধকারে: সাশকেলোর উত্তর কি আরও ভাল?


পূর্বশর্ত বলতে কী বোঝ? (এছাড়াও আপনার উত্তর অনেক ইমো দ্বারা সাশকেলোর চেয়ে অনেক ভাল) এছাড়াও, সমস্যাটি হ'ল স্কিপ সংযোগগুলি ব্যতীত আরও স্তর যুক্ত করা গভীর নেটওয়ার্কের পক্ষে এমনকি পরিচয় ম্যাপিংটি খুঁজে পাওয়া শক্ত করে? (কোনও কারণে?)
চার্লি পার্কার

20

তত্ত্ব অনুসারে, স্কিপ-লেয়ার সংযোগগুলির নেটওয়ার্ক কর্মক্ষমতাতে উন্নতি করা উচিত নয়। তবে, যেহেতু জটিল নেটওয়ার্কগুলি প্রশিক্ষণ করা শক্ত এবং সহজেই সাবলীল হওয়া সহজ তবে এটিকে স্পষ্টভাবে রৈখিক প্রতিরোধ শব্দ হিসাবে যুক্ত করা খুব কার্যকর হতে পারে, যখন আপনি জানেন যে আপনার ডেটাতে একটি শক্তিশালী রৈখিক উপাদান রয়েছে। এটি মডেলটিকে একটি সঠিক দিকে ইঙ্গিত দেয় ... তদতিরিক্ত, এটি আরও ব্যাখ্যাযোগ্য কারণ এটি আপনার মডেলটিকে রৈখিক + ব্যঙ্গাত্মক হিসাবে উপস্থাপন করে, নেটওয়ার্কের পিছনে কিছু কাঠামো উন্মুক্ত করে যা সাধারণত একটি কালো বাক্স হিসাবে দেখা যায়।


@ সাশকেলো আপনি তাত্ত্বিক উপায়ে, 'স্কিপ-লেয়ার সংযোগগুলি নেটওয়ার্কের পারফরম্যান্সে উন্নত হওয়া উচিত নয়' এর বিস্তারিত ব্যাখ্যা করতে পারেন। এটা বুঝতে দুর্দান্ত হবে।
ডিসি

@ হঞ্চ এটি কারণ আপনি এড়িয়ে যাওয়া-স্তর ছাড়াই মডেল করতে পারেন। স্কিপ-লেয়ারটি কেবল একটি রৈখিক শব্দ। সিগময়েড ফাংশন 0-এর প্রায় লিনিয়ার। সুতরাং, একটি স্কিপ-লেয়ার সংযোগটি খুব ছোট ইনপুট ওজন সহ একটি লুকানো নোডের মতো আচরণ করবে।
সাশকেলো

5

আমার পুরানো নিউরাল নেটওয়ার্ক টুলবক্স (আমি আজকাল বেশিরভাগ ক্ষেত্রে কার্নেল মেশিনগুলি ব্যবহার করি) রিলান্ট্যান্ট ওজন এবং গোপন ইউনিটগুলি ছাঁটাই করতে L1 নিয়মিতকরণ ব্যবহার করেছিলাম এবং এড়িয়ে যাওয়া-স্তর সংযোগও ছিল। এটির সুবিধাটি রয়েছে যে যদি সমস্যাটি মূলত রৈখিক হয় তবে লুকানো ইউনিটগুলি ছাঁটাই হয়ে যায় এবং আপনাকে একটি রৈখিক মডেল রেখে যায়, যা আপনাকে স্পষ্টভাবেই বলে দেয় যে সমস্যাটি রৈখিক।

যেমন সাশকেলো (+1) পরামর্শ দেয়, এমএলপিগুলি সর্বজনীন আনুষঙ্গিক হয়, সুতরাং স্তরের সংযোগগুলি অসীম ডেটা এবং সীমাহীন সংখ্যক গোপন ইউনিটের সীমাতে ফলাফল উন্নত করতে পারে না (তবে আমরা কখন এই সীমাটির কাছে যাই?) আসল সুবিধাটি হ'ল যদি নেটওয়ার্ক আর্কিটেকচার সমস্যার সাথে ভালভাবে মিলে যায় তবে ওজনগুলির জন্য ভাল মানগুলির অনুমান করা সহজ হয় এবং আপনি একটি ছোট নেটওয়ার্ক ব্যবহার করতে এবং আরও সাধারণীকরণের কার্যকারিতা অর্জন করতে সক্ষম হতে পারেন।

তবে, বেশিরভাগ নিউরাল নেটওয়ার্ক প্রশ্নগুলির মতো, সাধারণত কোনও নির্দিষ্ট ডেটাসেটের জন্য এটি সহায়ক বা ক্ষতিকারক হবে কিনা তা সন্ধানের একমাত্র উপায় হ'ল এটির চেষ্টা এবং দেখতে (একটি নির্ভরযোগ্য পারফরম্যান্স মূল্যায়নের পদ্ধতি ব্যবহার করে)।


3
"চেষ্টা করে দেখুন" - সোনার শব্দ :)
সাশকেলো

0

বিশপ 5.1 এর উপর ভিত্তি করে। ফিড-ফরোয়ার্ড নেটওয়ার্ক ফাংশন: নেটওয়ার্ক আর্কিটেকচারকে সাধারণীকরণের একটি উপায় হল স্কিপ-লেয়ার সংযোগগুলি অন্তর্ভুক্ত করা, যার প্রত্যেকটি সংশ্লিষ্ট অ্যাডাপটিভ প্যারামিটারের সাথে সম্পর্কিত। উদাহরণস্বরূপ, একটি দ্বি-স্তরের (দুটি গোপন স্তর) নেটওয়ার্কে এগুলি ইনপুট থেকে আউটপুটগুলিতে সরাসরি যায়। নীতিগতভাবে, সিগময়েডাল লুকানো ইউনিটগুলির সাথে একটি নেটওয়ার্ক সর্বদা পর্যাপ্ত ছোট প্রথম স্তরের ওজন ব্যবহার করে স্তর সংযোগগুলি (সীমাবদ্ধ ইনপুট মানগুলির জন্য) নকল করতে পারে যা তার অপারেটিং পরিসীমা জুড়ে, লুকানো ইউনিট কার্যকরভাবে রৈখিক হয়, এবং তারপরে একটি বৃহত্তর সাথে ক্ষতিপূরণ দেয় লুকানো ইউনিট থেকে আউটপুট পর্যন্ত ওজনের মান।

বাস্তবে, তবে এড়িয়ে যাওয়া-স্তর সংযোগগুলি স্পষ্টভাবে অন্তর্ভুক্ত করা সুবিধাজনক হতে পারে।এখানে চিত্র বর্ণনা লিখুন

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.