মডেলটির ট্রেনিংয়ের যথার্থতা ট্র্যাক করতে ব্যাচ নরমালাইজেশন কীভাবে এবং কেন চলমান গড় ব্যবহার করে?


21

আমি ব্যাচের নরমালাইজেশন (বিএন) কাগজটি পড়ছিলাম (1) এবং মডেলের যথার্থতা ট্র্যাক করার জন্য চলন্ত গড় ব্যবহারের প্রয়োজনীয়তা বুঝতে পারি নি এবং এমনকি যদি আমি এটি স্বীকার করি যে এটি করা ঠিক ছিল তবে আমি বুঝতে পারি না তারা ঠিক কি করছে।

আমার বোঝার (যা আমার ভুল হতে পারে), কাগজে উল্লেখ করা হয়েছে যে এটি মিনি-ব্যাচের চেয়ে জনসংখ্যার পরিসংখ্যান ব্যবহার করে, মডেলটি একবার প্রশিক্ষণ শেষ করার পরে statistics পক্ষপাতহীন অনুমানের কিছু আলোচনা করার পরে (এটি আমার কাছে স্পর্শকাতর বলে মনে হচ্ছে এবং কেন এটি সম্পর্কে কথা বলে তা বুঝতে পারছেন না) তারা গিয়ে বলে:

পরিবর্তে চলমান গড় ব্যবহার করে আমরা মডেলটির প্রশিক্ষণের সাথে সাথে যথার্থতা ট্র্যাক করি।

এটি আমার কাছে বিভ্রান্তিকর অংশ। তারা মডেলটির যথার্থতা এবং কোন ডেটা সেট সেট করে তার যথাযথতা অনুমান করতে গড় চালান কেন করে?

সাধারণত লোকেরা তাদের মডেলটির সাধারণীকরণের অনুমানের জন্য যা করেন, তারা কেবল তাদের মডেলের বৈধতা ত্রুটিটি ট্র্যাক করে (এবং সম্ভবত নিয়মিতভাবে তাদের গ্রেডিয়েন্ট বংশদ্ভুত থামিয়ে দেন)। তবে, দেখে মনে হচ্ছে ব্যাচ নরমালাইজেশন সম্পূর্ণ আলাদা কিছু করছে। কেউ কী এবং কেন এটির কিছু আলাদা করছে তা স্পষ্ট করতে পারে?


1 : আইওফএফ এস এবং সিজেজি সি। (2015),
"ব্যাচ নর্মালাইজেশন: ইন্টার্নাল কোভারিয়েট শিফট হ্রাস করে ডিপ নেটওয়ার্ক প্রশিক্ষণ ত্বরান্বিত করা" , ফ্রান্স, লিলি , ফ্রান্স, 2015
সালে 32 তম আন্তর্জাতিক সম্মেলনের কার্যক্রম
: মেশিন লার্নিং রিসার্চ: ডাব্লু ও সিসিপি ভলিউম 37


আপনি উত্তরের উত্তর দিয়ে সন্তুষ্ট? এটি মোটেও "উত্তর" নয়, যদি আপনি আমাকে জিজ্ঞাসা করেন; যদি এখনও প্রাসঙ্গিক হয় তবে আমি আরও ভাল উত্তর দিতে পারি।
ওভারলর্ডগোল্ডড্রাগন

@ ওভারলর্ডগোল্ডড্রাগন আপনার নিজের উত্তর সরবরাহ করুন :)
পিনোকিও

উত্তর:


8

ব্যাচ_নরমালাইজেশন ব্যবহার করার সময় প্রথমে আমাদের বুঝতে হবে প্রশিক্ষণ এবং পরীক্ষার সময় এটি দুটি ভিন্ন উপায়ে কাজ করা ।

  1. প্রশিক্ষণে আমাদের ব্যাচকে স্বাভাবিক করার জন্য মিনি ব্যাচ গড় গণনা করতে হবে

  2. অনুমান হিসাবে আমরা কেবল প্রাক-গণনা করা মিনি ব্যাচের পরিসংখ্যান প্রয়োগ করি

সুতরাং দ্বিতীয় জিনিসটিতে কীভাবে এই মিনি ব্যাচের স্ট্যাটিক্স গণনা করা যায়

এখানে চলন্ত গড় আসে

running_mean = momentum * running_mean + (1 - momentum) * sample_mean
running_var = momentum * running_var + (1 - momentum) * sample_var

এটি যা কিছু প্রশ্নের উত্তর দেয় না; "কেন" এবং "কীভাবে" জিজ্ঞাসা করা হয়েছিল এবং একটি অতিপরিসর "কী" দেওয়া হয়েছিল। এটি উঁচু করা উচিত নয়।
ওভারলর্ডগোল্ডড্রাগন

1

তারা ব্যাচের সাধারণকরণের বিষয়ে কথা বলছে, যা তারা প্রশিক্ষণের পদ্ধতির জন্য বর্ণিত হয়েছে তবে অনুমানের জন্য নয়।

এটি নমুনা মাধ্যম ইত্যাদি ব্যবহার করে লুকানো ইউনিটগুলিকে স্বাভাবিক করার প্রক্রিয়া is

আপনি যখন কেবলমাত্র ভবিষ্যদ্বাণী করছেন (অর্থাত্ প্রশিক্ষণ শেষ হওয়ার পরে) আপনি অনুমানের পর্যায়ে কী করবেন তা এই বিভাগে তারা ব্যাখ্যা করে।

তবে, বন্ধ হওয়া বৈধতাতে আপনি আপনার বৈধতা ত্রুটিটি অনুমান করার জন্য প্রশিক্ষণের সাথে বৈধতা সেট সম্পর্কে পূর্বাভাসটি ফাঁক করেন।

সুতরাং এই প্রক্রিয়া চলাকালীন আপনার জনসংখ্যার গড় নেই (ট্রেনিংয়ের গড় হিসাবে এখনও পরিবর্তন হচ্ছে), সুতরাং আপনি বৈধতা সেটটিতে পারফরম্যান্স গণনা করার জন্য ব্যাচের আদর্শ পরামিতিগুলি গণনা করার জন্য একটি চলমান গড় ব্যবহার করেন।

এই অর্থে যে

পরিবর্তে চলমান গড় ব্যবহার করে আমরা মডেলটির প্রশিক্ষণের সাথে সাথে যথার্থতা ট্র্যাক করি।

নিউরাল নেটওয়ার্ক পারফরম্যান্সের জন্য মেট্রিক হিসাবে আক্ষরিকভাবে চলমান মানে ব্যবহার করার সাথে কিছুই করার নেই।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.