আমি ব্যাচের নরমালাইজেশন কাগজটি পড়ছিলাম [1] এবং এর একটি বিভাগ ছিল যেখানে উদাহরণ দিয়ে যায়, কেন সাধারণীকরণ সাবধানতার সাথে করাতে হবে তা চেষ্টা করার চেষ্টা করে। আমি সত্যই, উদাহরণটি কীভাবে বুঝতে পারে তা বুঝতে পারছি না এবং তারা যতটা পারে কাগজপত্র বুঝতে পেরে আমি সত্যই খুব আগ্রহী। প্রথমে আমাকে এখানে উদ্ধৃতি দিন:
উদাহরণস্বরূপ, ইনপুট ইউ এর সাথে একটি স্তর বিবেচনা করুন যা শিখানো পক্ষপাতিত্ব বি যোগ করে এবং প্রশিক্ষণের ডেটাতে গণনা করা অ্যাক্টিভেশনটির গড়কে বিয়োগ করে ফলাফলকে স্বাভাবিক করে তোলে: যেখানে হ'ল প্রশিক্ষণের সেটের উপরে এর মানগুলির সেট এবং । একটি গ্রেডিয়েন্ট বংশদ্ভুত ধাপ নির্ভরতা উপেক্ষা করে তাহলে উপর , তাহলে এটি আপডেট হবে , যেখানে । তারপরে । সুতরাং, আপডেটের সংমিশ্রণএক্স=U+ +খ,এক্স={x এর1। । । N}xE[x]=∑ N i = 1 xiE[x]খΔ বি ∝ - ∂ l তোমার দর্শন লগ করা+ +(খ+ +Δখ)-ই[তোমার দর্শন লগ করা+ +(খ+ +Δখ)]=U+ +খ-ই[তোমার দর্শন লগ করা+ +খ]খ এবং পরবর্তীকালে স্বাভাবিককরণের পরিবর্তনের ফলে স্তরের আউটপুট কোনও পরিবর্তন হয়নি এবং ফলস্বরূপ ক্ষতি হয়।
আমি মনে করি আমি বার্তাটি বুঝতে পেরেছি, যদি কেউ যথাযথভাবে সাধারণীকরণ না করে তবে এটি খারাপ হতে পারে। আমি কীভাবে উদাহরণটি ব্যবহার করছি তা এটি চিত্রিত করে না।
আমি সচেতন যে কাউকে তাদের বিভ্রান্ত করার বিষয়ে যদি সুনির্দিষ্ট না হয় তবে তাদের সাহায্য করা আমার পক্ষে কঠিন তাই আমি পরবর্তী বিভাগে সরবরাহ করব, যে বিষয়গুলি তাদের ব্যাখ্যা সম্পর্কে আমাকে বিভ্রান্ত করছে।
আমি মনে করি আমার বেশিরভাগ বিভ্রান্তি সম্ভবত যুক্তিযুক্ত, তাই আমি স্পষ্ট করে বলব।
প্রথমত, আমি মনে করি যে বিষয়গুলি আমাকে অনেকটা বিভ্রান্ত করছে তা হ'ল লেখকদের নেটওয়ার্কে একটি ইউনিট থাকার অর্থ কী এবং একটি অ্যাক্টিভেশন কী। সাধারণত, আমি একটি অ্যাক্টিভেশন হিসাবে মনে করি:
যেখানে প্রথম ইনপুট স্তর থেকে কাঁচা বৈশিষ্ট্যযুক্ত ভেক্টর।
এছাড়াও, আমি মনে করি যে আমাকে প্রথমে একটি জিনিস যা বিভ্রান্ত করে (পূর্ববর্তী কারণে) তারা আসলে যে পরিস্থিতিটি ব্যাখ্যা করার চেষ্টা করছে তা হল। এটা বলে:
প্রশিক্ষণের ডেটাতে গণনা করা অ্যাক্টিভেশনটির গড়কে বিয়োগ করে ফলাফলকে স্বাভাবিক করে তোলে: যেখানেএক্স=U+ +খ
আমি মনে করি তারা যা বলতে চাইছে তা হল যে এক্সটিভেশনগুলি using ফরোয়ার্ড পাসের সাহায্যে ব্যবহার না করে, কেউ গড় অ্যাক্টিভেশনকে বিয়োগ করে কিছু প্রকার "স্বাভাবিককরণ" সম্পাদন করে :
এবং তারপরে এটি ব্যাক-প্রসারণ অ্যালগরিদমে চলে যায়। বা কমপক্ষে তা আমার কাছে কী বোঝায় ts
এই সম্পর্কিত, আমি কি তারা কল হয়তো হয় এক্স ( ঠ ) ? আমি কী অনুমান করব তা তারা এটিকে "ইনপুট" বলে এবং x = u + b সমীকরণ রয়েছে (আমি অনুমান করি যে তারা তাদের নিউরাল নেটওয়ার্কের জন্য পরিচয় / লিনিয়ার অ্যাক্টিভেশন ইউনিট ব্যবহার করছেন? সম্ভবত)।
আরও দ্বিধায় পরে আমার কাছে তারা সংজ্ঞায়িত কিছু আংশিক ডেরিভেটিভ সমানুপাতিক, কিন্তু আংশিক ডেরিভেটিভ থেকে সম্মান সঙ্গে নির্ণয় করা হয় এক্স , যা আমার সত্যিই উদ্ভট বলে মনে হয়। সাধারণত, গ্রেডিয়েন্ট বংশদ্ভুত ব্যবহার করার সময় আংশিক ডেরাইভেটিভগুলি নেটওয়ার্কের পরামিতিগুলির সাথে সম্মানজনক। অফসেটের ক্ষেত্রে, আমি ভাবতাম:
সাধারন ক্রিয়াকলাপগুলির প্রতি শ্রদ্ধাশীল হওয়ার চেয়ে আরও বোধগম্য হয়। আমি বুঝতে কেন তারা সম্মান সঙ্গে ব্যুৎপন্ন নিতাম চেষ্টা ছিল এক্স এবং আমি হয়তো তারা বদ্বীপ উল্লেখ হয় যখন তারা লিখেছে ∂ ঠ যেহেতু সাধারণত ব্যাক ঠেকনা অ্যালগরিদম প্রাক সক্রিয়করণব্যবস্থা যেহেতু ব-দ্বীপ সমীকরণ হয় সম্মানের সঙ্গে একটি অমৌলিক আছে একটি অংশ মাত্র:
আর একটি বিষয় যা আমাকে বিভ্রান্ত করে তা হ'ল:
তারপরে ।
তারা সত্যিই বলি না তারা যা উপরে সমীকরণের গনা করার চেষ্টা করছেন কিন্তু আমি অনুমান করবে যে, তারা পরে (প্রথম স্তর? জন্য) আপডেট সাধারণ অ্যাক্টিভেশন গনা করার চেষ্টা করছেন আপডেট করা হয়েছে খ + + Δ খ ? নিশ্চিত না যে আমি তাদের পয়েন্টটি কিনছি কারণ আমার ধারণা সঠিক সমীকরণটি হওয়া উচিত ছিল:
বাতিল নয় যা প্যারামিটার পরিবর্তন খ । তবে, আমি সত্যিই জানি না তারা কী করছে আমি কেবল অনুমান করছি। তারা যে সমীকরণটি লিখেছিল তা আসলে কী?
আমি নিশ্চিত না এটি সঠিক বোঝাপড়া কিনা তবে আমি তাদের উদাহরণটিতে কিছুটা চিন্তাভাবনা করেছি। দেখে মনে হচ্ছে যে তাদের উদাহরণের কোনও অ-রৈখিক অ্যাক্টিভেশন ইউনিট নেই (পরিচয় ব্যবহার করে) এবং তারা কেবল প্রথম ইনপুট স্তর সম্পর্কে কথা বলছে? যেহেতু তারা প্রচুর বিবরণ রেখে গেছে এবং স্বরলিপিটি খুব স্পষ্ট নয় তবে তারা যে বিষয়ে কথা বলছে আমি ঠিক তা অনুমান করতে পারি না। কেউ কি জানেন যে কীভাবে এই উদাহরণটি প্রতিটি স্তরে কী চলছে তা প্রকাশ করে এমন স্বরলিপি দিয়ে কীভাবে প্রকাশ করতে হয়? কেউ কি উদাহরণস্বরূপ আসলে কী চলছে বুঝতে পারে এবং আমার সাথে তার জ্ঞান ভাগ করে নিতে চায়?
[1]: Ioffe এস এন্ড Szegedy সি (2015),
"ব্যাচ স্বাভাবিক: অভ্যন্তরীণ Covariate শিফট কমিয়ে ডীপ নেটওয়ার্ক প্রশিক্ষণ ত্বরক",
32nd মেশিন লার্নিং উপর ইন্টারন্যাশনাল কনফারেন্স প্রসিডিংস , Lille,, ফ্রান্স, 2015.
মেশিন লার্নিং জার্নাল গবেষণা: ডাব্লুএন্ডসিপি আয়তন 37