আরএলইউ নিউরনের জন্য ইনপুট নরমালাইজেশন


9

লেকুন এট আল (1998) দ্বারা "দক্ষ ব্যাকপ্রপ" অনুসারে সমস্ত ইনপুটগুলিকে সাধারণকরণ করা ভাল অনুশীলন যাতে সেগুলি 0 এর কাছাকাছি থাকে এবং সর্বাধিক দ্বিতীয় ডেরাইভেটিভের মধ্যে থাকে। সুতরাং উদাহরণস্বরূপ আমরা "তানহ" ফাংশনের জন্য [-0.5,0.5] ব্যবহার করব। এটি হেসিয়ান আরও স্থিতিশীল হওয়ার সাথে সাথে পিছনের প্রচারকে সহায়তা করতে পারে।

তবে, আমি নিশ্চিত নই যে রেকটিফায়ার নিউরনগুলি সর্বাধিক (0, x) এর সাথে কী করব। (এছাড়াও লজিস্টিক ফাংশনটির পরেও আমরা [0.1,0.9] এর মতো কিছু চাই তবে তা 0-এর আশেপাশে কেন্দ্রিক নয়)

উত্তর:


7

আমার জ্ঞানের সর্বোপরি, আপনি যা খুঁজছেন তার নিকটতম বিষয় হ'ল গুগল গবেষকদের এই সাম্প্রতিক নিবন্ধটি: ব্যাচ সাধারনকরণ: অভ্যন্তরীণ কোভারিয়েট শিফ্ট হ্রাস করে ডিপ নেটওয়ার্ক প্রশিক্ষণকে ত্বরান্বিত করা

ব্যাচ নরমালাইজেশন

একটি স্তর বিবেচনা করুন এর অ্যাক্টিভেশন আউটপুট Y=(ওয়াটএক্স+ +) কোথায় হ'ল অরৈখিকতা (আরএলইউ, তানহ ইত্যাদি), ওয়াট, যথাক্রমে ওজন এবং বায়াস হয় এক্স ডেটা মিনিব্যাচ হয়।

ব্যাচ নরমালাইজেশন (বিএন) যা করে তা নিম্নলিখিত:

  1. প্রমিত করা ওয়াটএক্স+ +শূন্য এবং বৈকল্পিক এক মানে। আমরা এটি মিনিবাচ জুড়েই করি। দিনএক্স^ মানক মধ্যবর্তী অ্যাক্টিভেশন মানগুলি বোঝান, অর্থাত্‍ এক্স^ এর সাধারণ সংস্করণ ওয়াটএক্স+ +
  2. একটি প্যারামিটারাইজড (শেখার যোগ্য) অ্যাফাইন ট্রান্সফরমেশন প্রয়োগ করুন এক্স^γএক্স^+ +β
  3. আনলাইনারিটি প্রয়োগ করুন: Y^=(γএক্স^+ +β)

সুতরাং, বিএন "কাঁচা" মানায় (পড়ুন: আমরা অ-লাইন প্রয়োগের আগে) অ্যাক্টিভেশন আউটপুটগুলির অর্থ শূন্য, ভেরিয়েন্স 1 এবং তারপরে আমরা একটি শিখানো অ্যাফাইন ট্রান্সফর্মেশন প্রয়োগ করি এবং শেষ পর্যন্ত আমরা অরেখারতাকে প্রয়োগ করি। কিছুটা অর্থে আমরা নিউরাল নেটওয়ার্কটিকে অরৈখিকতায় উপযুক্ত প্যারামিটারাইজড ইনপুট বিতরণ শেখার অনুমতি হিসাবে এটি ব্যাখ্যা করতে পারি।

প্রতিটি ক্রিয়াকলাপ যেমন স্বতন্ত্র, আমরা শিখতে পারি γ,β ব্যাকপ্রসারণের মাধ্যমে পরামিতি।

অ্যাফাইন রূপান্তর প্রেরণা ation

যদি আমরা একটি প্যারামিটারাইজড অ্যাফাইন রূপান্তর না করে থাকি তবে প্রতিটি অলাইনারিটির ইনপুট বিতরণ হিসাবে গড় শূন্য এবং ভেরিয়েন্স 1 বিতরণ থাকবে। এটি উপ-অনুকূল হতে পারে বা নাও পারে। নোট করুন যে যদি গড় শূন্য হয় তবে ভেরিয়েন্স 1 ইনপুট বিতরণটি সর্বোত্তম হয়, তবে অ্যাফাইন রূপান্তরটি তাত্ত্বিকভাবে সেট করে এটি পুনরুদ্ধার করতে পারেβ ব্যাচ গড় এবং সমান γব্যাচের স্ট্যান্ডার্ড বিচ্যুতির সমান। এই প্যারামিটারাইজড অ্যাফাইন ট্রান্সফর্মেশনটিতে নেটওয়ার্কের প্রতিনিধিত্ব ক্ষমতা বৃদ্ধি করার আরও বোনাস রয়েছে (আরও শেখার পরামিতি)।

প্রথম মান Standard

প্রথমে মানিক কেন? কেন কেবল অ্যাফাইন ট্রান্সফর্মেশনটি প্রয়োগ করবেন না? তাত্ত্বিকভাবে বলতে গেলে, কোনও পার্থক্য নেই। তবে এখানে কন্ডিশনার সমস্যা থাকতে পারে। প্রথমে অ্যাক্টিভেশন মানগুলিকে মানীকৃত করার মাধ্যমে, সম্ভবত সর্বোত্তম শেখা সহজ হয়ে যায়γ,βপ্যারামিটার। এটি আমার পক্ষে বিশুদ্ধভাবে অনুমান করা যায়, তবে অন্যান্য সাম্প্রতিক কলা ক্যান নেট আর্কিটেকচারের রাজ্যেও একই ধরণের এনালগ রয়েছে। উদাহরণস্বরূপ, সাম্প্রতিক মাইক্রোসফ্ট রিসার্চ প্রযুক্তিগত রিপোর্ট ইমেজ স্বীকৃতির জন্য ডিপ রেসিডুয়াল লার্নিংয়ে তারা কার্যকরভাবে এমন একটি রূপান্তর শিখেছে যেখানে তারা পরিচয়ের রূপান্তরকে তুলনার জন্য রেফারেন্স বা বেসলাইন হিসাবে ব্যবহার করেছিলেন। মাইক্রোসফ্ট সহ-লেখকরা বিশ্বাস করেছিলেন যে এই রেফারেন্স বা বেসলাইন থাকা সমস্যার প্রাক-শর্তটিকে সহায়তা করে। আমি বিশ্বাস করি না যে বিএন এবং প্রাথমিক মানীকরণের পদক্ষেপের সাথে এখানেও তেমন কিছু ঘটছে কিনা তা অবাক করা খুব দূরের কথা।

বিএন অ্যাপ্লিকেশন

একটি বিশেষ আকর্ষণীয় ফলাফল ব্যাচ নরমালাইজেশন ব্যবহার করে গুগল দল ইমেজনেটে ​​প্রশিক্ষণের জন্য একটি তান ইনসেপশন নেটওয়ার্ক পেতে সক্ষম হয়েছিল এবং বেশ প্রতিযোগিতামূলক ফলাফল পেতে পেরেছে। তানহ একটি সম্পৃক্ততর অনৈখিকতা এবং এই জাতীয় নেটওয়ার্কগুলি তাদের স্যাচুরেশন / গায়েবি গ্রেডিয়েন্ট সমস্যার কারণে শিখতে অসুবিধা হয়েছে। তবে, ব্যাচ নরমালাইজেশন ব্যবহার করে, কেউ ধরে নিতে পারে যে নেটওয়ার্কটি এমন একটি রূপান্তর শিখতে সক্ষম হয়েছিল যা অ্যাক্টিভেশন আউটপুট মানকে তানহীনরেখার অ-স্যাচুরেটিং শাসন ব্যবস্থায় মানচিত্র করে।

চূড়ান্ত নোটস

এমনকি ব্যাচ সাধারণকরণের জন্য প্রেরণা হিসাবে আপনি উল্লিখিত একই ইয়ান লেকুন ফ্যাক্টয়েডকে উল্লেখ করেছেন।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.