ব্যাচ নরমালাইজেশন কেন কিছু যত্ন সহকারে করা উচিত তার উদাহরণটির ব্যাখ্যা কী?


11

আমি ব্যাচের নরমালাইজেশন কাগজটি পড়ছিলাম [1] এবং এর একটি বিভাগ ছিল যেখানে উদাহরণ দিয়ে যায়, কেন সাধারণীকরণ সাবধানতার সাথে করাতে হবে তা চেষ্টা করার চেষ্টা করে। আমি সত্যই, উদাহরণটি কীভাবে বুঝতে পারে তা বুঝতে পারছি না এবং তারা যতটা পারে কাগজপত্র বুঝতে পেরে আমি সত্যই খুব আগ্রহী। প্রথমে আমাকে এখানে উদ্ধৃতি দিন:

উদাহরণস্বরূপ, ইনপুট ইউ এর সাথে একটি স্তর বিবেচনা করুন যা শিখানো পক্ষপাতিত্ব বি যোগ করে এবং প্রশিক্ষণের ডেটাতে গণনা করা অ্যাক্টিভেশনটির গড়কে বিয়োগ করে ফলাফলকে স্বাভাবিক করে তোলে: যেখানে হ'ল প্রশিক্ষণের সেটের উপরে এর মানগুলির সেট এবং । একটি গ্রেডিয়েন্ট বংশদ্ভুত ধাপ নির্ভরতা উপেক্ষা করে তাহলে উপর , তাহলে এটি আপডেট হবে , যেখানে । তারপরে । সুতরাং, আপডেটের সংমিশ্রণএক্স=U+ +,এক্স={x এর1N}xE[x]= N i = 1 xiE[x]x^=xE[x]x=u+b,X={x1...N}xE[x]=i=1NxiE[x]bΔ বি - lbb+Δ>b তোমার দর্শন লগ করা+ +(+ +Δ)-[তোমার দর্শন লগ করা+ +(+ +Δ)]=U+ +-[তোমার দর্শন লগ করা+ +]Δblx^u+(b+Δb)E[u+(b+Δb)]=u+bE[u+b]b এবং পরবর্তীকালে স্বাভাবিককরণের পরিবর্তনের ফলে স্তরের আউটপুট কোনও পরিবর্তন হয়নি এবং ফলস্বরূপ ক্ষতি হয়।

আমি মনে করি আমি বার্তাটি বুঝতে পেরেছি, যদি কেউ যথাযথভাবে সাধারণীকরণ না করে তবে এটি খারাপ হতে পারে। আমি কীভাবে উদাহরণটি ব্যবহার করছি তা এটি চিত্রিত করে না।

আমি সচেতন যে কাউকে তাদের বিভ্রান্ত করার বিষয়ে যদি সুনির্দিষ্ট না হয় তবে তাদের সাহায্য করা আমার পক্ষে কঠিন তাই আমি পরবর্তী বিভাগে সরবরাহ করব, যে বিষয়গুলি তাদের ব্যাখ্যা সম্পর্কে আমাকে বিভ্রান্ত করছে।


আমি মনে করি আমার বেশিরভাগ বিভ্রান্তি সম্ভবত যুক্তিযুক্ত, তাই আমি স্পষ্ট করে বলব।

প্রথমত, আমি মনে করি যে বিষয়গুলি আমাকে অনেকটা বিভ্রান্ত করছে তা হ'ল লেখকদের নেটওয়ার্কে একটি ইউনিট থাকার অর্থ কী এবং একটি অ্যাক্টিভেশন কী। সাধারণত, আমি একটি অ্যাক্টিভেশন হিসাবে মনে করি:

x(l)=a(l)=θ(z(l))=θ(w(l),x(l1)+b(l))

যেখানে প্রথম ইনপুট স্তর থেকে কাঁচা বৈশিষ্ট্যযুক্ত ভেক্টর।x(0)=a(0)=x

এছাড়াও, আমি মনে করি যে আমাকে প্রথমে একটি জিনিস যা বিভ্রান্ত করে (পূর্ববর্তী কারণে) তারা আসলে যে পরিস্থিতিটি ব্যাখ্যা করার চেষ্টা করছে তা হল। এটা বলে:

প্রশিক্ষণের ডেটাতে গণনা করা অ্যাক্টিভেশনটির গড়কে বিয়োগ করে ফলাফলকে স্বাভাবিক করে তোলে: যেখানেএক্স=U+ +x^=xE[x]x=u+b

আমি মনে করি তারা যা বলতে চাইছে তা হল যে এক্সটিভেশনগুলি using ফরোয়ার্ড পাসের সাহায্যে ব্যবহার না করে, কেউ গড় অ্যাক্টিভেশনকে বিয়োগ করে কিছু প্রকার "স্বাভাবিককরণ" সম্পাদন করে :x(l)=a(l)

x¯l=a¯l=1Ni=1Na¯l=1Ni=1Nx¯l

এবং তারপরে এটি ব্যাক-প্রসারণ অ্যালগরিদমে চলে যায়। বা কমপক্ষে তা আমার কাছে কী বোঝায় ts

এই সম্পর্কিত, আমি কি তারা কল হয়তো হয় এক্স ( ) ? আমি কী অনুমান করব তা তারা এটিকে "ইনপুট" বলে এবং x = u + b সমীকরণ রয়েছে (আমি অনুমান করি যে তারা তাদের নিউরাল নেটওয়ার্কের জন্য পরিচয় / লিনিয়ার অ্যাক্টিভেশন ইউনিট ব্যবহার করছেন? সম্ভবত)।ux(l)x=u+b

আরও দ্বিধায় পরে আমার কাছে তারা সংজ্ঞায়িত কিছু আংশিক ডেরিভেটিভ সমানুপাতিক, কিন্তু আংশিক ডেরিভেটিভ থেকে সম্মান সঙ্গে নির্ণয় করা হয় এক্স , যা আমার সত্যিই উদ্ভট বলে মনে হয়। সাধারণত, গ্রেডিয়েন্ট বংশদ্ভুত ব্যবহার করার সময় আংশিক ডেরাইভেটিভগুলি নেটওয়ার্কের পরামিতিগুলির সাথে সম্মানজনক। অফসেটের ক্ষেত্রে, আমি ভাবতাম:Δbx^

Δb(l)lb(l)

সাধারন ক্রিয়াকলাপগুলির প্রতি শ্রদ্ধাশীল হওয়ার চেয়ে আরও বোধগম্য হয়। আমি বুঝতে কেন তারা সম্মান সঙ্গে ব্যুৎপন্ন নিতাম চেষ্টা ছিল এক্স এবং আমি হয়তো তারা বদ্বীপ উল্লেখ হয় যখন তারা লিখেছে x^ যেহেতু সাধারণত ব্যাক ঠেকনা অ্যালগরিদম প্রাক সক্রিয়করণব্যবস্থা যেহেতু ব-দ্বীপ সমীকরণ হয় সম্মানের সঙ্গে একটি অমৌলিক আছে একটি অংশ মাত্র:lx^

δj(l)=Lzj(l)

আর একটি বিষয় যা আমাকে বিভ্রান্ত করে তা হ'ল:

তারপরে u+(b+Δb)E[u+(b+Δb)]=u+bE[u+b]

তারা সত্যিই বলি না তারা যা উপরে সমীকরণের গনা করার চেষ্টা করছেন কিন্তু আমি অনুমান করবে যে, তারা পরে (প্রথম স্তর? জন্য) আপডেট সাধারণ অ্যাক্টিভেশন গনা করার চেষ্টা করছেন আপডেট করা হয়েছে + + Δ ? নিশ্চিত না যে আমি তাদের পয়েন্টটি কিনছি কারণ আমার ধারণা সঠিক সমীকরণটি হওয়া উচিত ছিল:bb+Δb

x^=θ(u+(b+Δb))E[θ(u+(b+Δb))]

বাতিল নয় যা প্যারামিটার পরিবর্তন । তবে, আমি সত্যিই জানি না তারা কী করছে আমি কেবল অনুমান করছি। তারা যে সমীকরণটি লিখেছিল তা আসলে কী?Δbb

আমি নিশ্চিত না এটি সঠিক বোঝাপড়া কিনা তবে আমি তাদের উদাহরণটিতে কিছুটা চিন্তাভাবনা করেছি। দেখে মনে হচ্ছে যে তাদের উদাহরণের কোনও অ-রৈখিক অ্যাক্টিভেশন ইউনিট নেই (পরিচয় ব্যবহার করে) এবং তারা কেবল প্রথম ইনপুট স্তর সম্পর্কে কথা বলছে? যেহেতু তারা প্রচুর বিবরণ রেখে গেছে এবং স্বরলিপিটি খুব স্পষ্ট নয় তবে তারা যে বিষয়ে কথা বলছে আমি ঠিক তা অনুমান করতে পারি না। কেউ কি জানেন যে কীভাবে এই উদাহরণটি প্রতিটি স্তরে কী চলছে তা প্রকাশ করে এমন স্বরলিপি দিয়ে কীভাবে প্রকাশ করতে হয়? কেউ কি উদাহরণস্বরূপ আসলে কী চলছে বুঝতে পারে এবং আমার সাথে তার জ্ঞান ভাগ করে নিতে চায়?


[1]: Ioffe এস এন্ড Szegedy সি (2015),
"ব্যাচ স্বাভাবিক: অভ্যন্তরীণ Covariate শিফট কমিয়ে ডীপ নেটওয়ার্ক প্রশিক্ষণ ত্বরক",
32nd মেশিন লার্নিং উপর ইন্টারন্যাশনাল কনফারেন্স প্রসিডিংস , Lille,, ফ্রান্স, 2015.
মেশিন লার্নিং জার্নাল গবেষণা: ডাব্লুএন্ডসিপি আয়তন 37


আমি মনে করি that অনুচ্ছেদের প্রামাণ্য প্রকৃতি এখন স্পষ্ট তবে বার্তাটি তার জানাতে চেষ্টা করছে এবং এর উদ্দেশ্যটিও কম স্পষ্ট।
চার্লি পার্কার

উত্তর:


3

E[x]b

তবে, যদি এই পরিবর্তনগুলি অপ্টিমাইজেশন পদক্ষেপের সাথে ছেদ করা হয়, তবে গ্রেডিয়েন্ট বংশদ্ভুত পদক্ষেপটি এমনভাবে প্যারামিটারগুলি আপডেট করার চেষ্টা করতে পারে যাতে নরমালাইজেশন আপডেট হওয়া প্রয়োজন, যা গ্রেডিয়েন্ট পদক্ষেপের প্রভাবকে হ্রাস করে।

সুতরাং তারা তাদের পদ্ধতিতে স্বাভাবিককরণ সম্পর্কে গ্রেডিয়েন্ট বংশদ্ভুত পদক্ষেপ সচেতন করেছে।


আপনার সম্পর্কে প্রশ্ন

ux(l)

uub

Δblb

x^=xE[x]=u+bE[x]E[x]b

lb=lx^x^b=lx^,
Δblx^

u+(b+Δb)E[u+(b+Δb)]=u+bE[u+b]bb+Δb

x^bb+ΔbE[x]b


এটা উদাহরণস্বরূপ, ব্যাচ নিয়মমাফিককরণ কিছু ওপেন সোর্স বাস্তবায়নের কটাক্ষপাত করা সহায়ক হতে পারে Lasagne এবং Keras

এর সাথে আরও একটি প্রশ্ন থাকতে পারে যা সম্পর্কিত বলে মনে হচ্ছে, নিউরাল নেটওয়ার্কে ব্যাচ নরমালাইজেশন ব্যবহার করার সময় কেন মুহুর্তগুলির গ্রেডিয়েন্ট (অর্থ এবং প্রকরণ) গ্রহণ করবেন?


সুতরাং আমি তাদের বক্তব্য অনুমান করি যে তাদের জিডি আপডেটকে সাধারণীকরণ সম্পর্কে সচেতন করা দরকার যাতে পক্ষপাতিত্ব আপডেট করার সময় লোকসানের পরিবর্তন হয়? বা সেই অনুচ্ছেদের কেন্দ্রীয় লক্ষ্য কী?
চার্লি পার্কার

@ চর্লিপার্কার হ্যাঁ আমার মনে হয়, জিডি আপডেটকে সাধারণীকরণ (আইএমও) সম্পর্কে সচেতন করার কোনও কারণ আছে তা দেখানোর জন্য।
dontloo

E কি [Δb] = Δb? যদি তাই হয় তবে কেন?
মাইকেলএসবি
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.