আমার জ্ঞানের সর্বোপরি, আপনি যা খুঁজছেন তার নিকটতম বিষয় হ'ল গুগল গবেষকদের এই সাম্প্রতিক নিবন্ধটি: ব্যাচ সাধারনকরণ: অভ্যন্তরীণ কোভারিয়েট শিফ্ট হ্রাস করে ডিপ নেটওয়ার্ক প্রশিক্ষণকে ত্বরান্বিত করা ।
ব্যাচ নরমালাইজেশন
একটি স্তর বিবেচনা করুন ঠএর অ্যাক্টিভেশন আউটপুট Yঠ= চ( ডাব্লুx + খ ) কোথায় চ হ'ল অরৈখিকতা (আরএলইউ, তানহ ইত্যাদি), ওয়াট, খ যথাক্রমে ওজন এবং বায়াস হয় এক্স ডেটা মিনিব্যাচ হয়।
ব্যাচ নরমালাইজেশন (বিএন) যা করে তা নিম্নলিখিত:
- প্রমিত করা ওয়াটx + খশূন্য এবং বৈকল্পিক এক মানে। আমরা এটি মিনিবাচ জুড়েই করি। দিনএক্স^ মানক মধ্যবর্তী অ্যাক্টিভেশন মানগুলি বোঝান, অর্থাত্ এক্স^ এর সাধারণ সংস্করণ ওয়াটx + খ।
- একটি প্যারামিটারাইজড (শেখার যোগ্য) অ্যাফাইন ট্রান্সফরমেশন প্রয়োগ করুন এক্স^→ γএক্স^+ + β।
- আনলাইনারিটি প্রয়োগ করুন: Y^ঠ= চ( γ)এক্স^+ + β)।
সুতরাং, বিএন "কাঁচা" মানায় (পড়ুন: আমরা অ-লাইন প্রয়োগের আগে) অ্যাক্টিভেশন আউটপুটগুলির অর্থ শূন্য, ভেরিয়েন্স 1 এবং তারপরে আমরা একটি শিখানো অ্যাফাইন ট্রান্সফর্মেশন প্রয়োগ করি এবং শেষ পর্যন্ত আমরা অরেখারতাকে প্রয়োগ করি। কিছুটা অর্থে আমরা নিউরাল নেটওয়ার্কটিকে অরৈখিকতায় উপযুক্ত প্যারামিটারাইজড ইনপুট বিতরণ শেখার অনুমতি হিসাবে এটি ব্যাখ্যা করতে পারি।
প্রতিটি ক্রিয়াকলাপ যেমন স্বতন্ত্র, আমরা শিখতে পারি γ, β ব্যাকপ্রসারণের মাধ্যমে পরামিতি।
অ্যাফাইন রূপান্তর প্রেরণা ation
যদি আমরা একটি প্যারামিটারাইজড অ্যাফাইন রূপান্তর না করে থাকি তবে প্রতিটি অলাইনারিটির ইনপুট বিতরণ হিসাবে গড় শূন্য এবং ভেরিয়েন্স 1 বিতরণ থাকবে। এটি উপ-অনুকূল হতে পারে বা নাও পারে। নোট করুন যে যদি গড় শূন্য হয় তবে ভেরিয়েন্স 1 ইনপুট বিতরণটি সর্বোত্তম হয়, তবে অ্যাফাইন রূপান্তরটি তাত্ত্বিকভাবে সেট করে এটি পুনরুদ্ধার করতে পারেβ ব্যাচ গড় এবং সমান γব্যাচের স্ট্যান্ডার্ড বিচ্যুতির সমান। এই প্যারামিটারাইজড অ্যাফাইন ট্রান্সফর্মেশনটিতে নেটওয়ার্কের প্রতিনিধিত্ব ক্ষমতা বৃদ্ধি করার আরও বোনাস রয়েছে (আরও শেখার পরামিতি)।
প্রথম মান Standard
প্রথমে মানিক কেন? কেন কেবল অ্যাফাইন ট্রান্সফর্মেশনটি প্রয়োগ করবেন না? তাত্ত্বিকভাবে বলতে গেলে, কোনও পার্থক্য নেই। তবে এখানে কন্ডিশনার সমস্যা থাকতে পারে। প্রথমে অ্যাক্টিভেশন মানগুলিকে মানীকৃত করার মাধ্যমে, সম্ভবত সর্বোত্তম শেখা সহজ হয়ে যায়γ, βপ্যারামিটার। এটি আমার পক্ষে বিশুদ্ধভাবে অনুমান করা যায়, তবে অন্যান্য সাম্প্রতিক কলা ক্যান নেট আর্কিটেকচারের রাজ্যেও একই ধরণের এনালগ রয়েছে। উদাহরণস্বরূপ, সাম্প্রতিক মাইক্রোসফ্ট রিসার্চ প্রযুক্তিগত রিপোর্ট ইমেজ স্বীকৃতির জন্য ডিপ রেসিডুয়াল লার্নিংয়ে তারা কার্যকরভাবে এমন একটি রূপান্তর শিখেছে যেখানে তারা পরিচয়ের রূপান্তরকে তুলনার জন্য রেফারেন্স বা বেসলাইন হিসাবে ব্যবহার করেছিলেন। মাইক্রোসফ্ট সহ-লেখকরা বিশ্বাস করেছিলেন যে এই রেফারেন্স বা বেসলাইন থাকা সমস্যার প্রাক-শর্তটিকে সহায়তা করে। আমি বিশ্বাস করি না যে বিএন এবং প্রাথমিক মানীকরণের পদক্ষেপের সাথে এখানেও তেমন কিছু ঘটছে কিনা তা অবাক করা খুব দূরের কথা।
বিএন অ্যাপ্লিকেশন
একটি বিশেষ আকর্ষণীয় ফলাফল ব্যাচ নরমালাইজেশন ব্যবহার করে গুগল দল ইমেজনেটে প্রশিক্ষণের জন্য একটি তান ইনসেপশন নেটওয়ার্ক পেতে সক্ষম হয়েছিল এবং বেশ প্রতিযোগিতামূলক ফলাফল পেতে পেরেছে। তানহ একটি সম্পৃক্ততর অনৈখিকতা এবং এই জাতীয় নেটওয়ার্কগুলি তাদের স্যাচুরেশন / গায়েবি গ্রেডিয়েন্ট সমস্যার কারণে শিখতে অসুবিধা হয়েছে। তবে, ব্যাচ নরমালাইজেশন ব্যবহার করে, কেউ ধরে নিতে পারে যে নেটওয়ার্কটি এমন একটি রূপান্তর শিখতে সক্ষম হয়েছিল যা অ্যাক্টিভেশন আউটপুট মানকে তানহীনরেখার অ-স্যাচুরেটিং শাসন ব্যবস্থায় মানচিত্র করে।
চূড়ান্ত নোটস
এমনকি ব্যাচ সাধারণকরণের জন্য প্রেরণা হিসাবে আপনি উল্লিখিত একই ইয়ান লেকুন ফ্যাক্টয়েডকে উল্লেখ করেছেন।