ব্যাচের আকার কীভাবে এসজিডি রূপান্তরকে প্রভাবিত করে এবং কেন?


18

আমি অনেকগুলি আলোচনার অনুরূপ উপসংহার দেখেছি, যেহেতু মিনিবিচের আকারটি এসজিডি রূপান্তরিত হওয়ার ফলে বাস্তবে আরও শক্ত / খারাপ হয়, উদাহরণস্বরূপ এই কাগজটি এবং এই উত্তরটি । এছাড়াও আমি শুনেছি লোকেরা বড় ব্যাচের আকারের সাহায্যে এই সমস্যাটির সমাধানের জন্য প্রাথমিক পর্যায়ে ছোট শেখার হার বা ব্যাচের আকারের মতো কৌশল ব্যবহার করে।

তবে এটিকে পাল্টা স্বজ্ঞাত বলে মনে হচ্ছে যেহেতু মিনিবাসের গড় ক্ষতি হ'ল ডেটা বিতরণের চেয়ে প্রত্যাশিত ক্ষতির একটি সান্নিধ্য হিসাবে বিবেচনা করা যেতে পারে,

1|X|xXl(x,w)Expdata[l(x,w)]
বৃহত্তর ব্যাচ আকার আরো সঠিক এমন তো হওয়ার কথা না। বাস্তবে কেন বিষয়টি হয় না?


এখানে আমার (সম্ভবত ভুল) কিছু চিন্তাভাবনা রয়েছে যা ব্যাখ্যা করার চেষ্টা করে।

মডেলের প্যারামিটারগুলি একে অপরের উপর নির্ভর করে, যখন ব্যাচটি খুব বড় হয়ে যায় এটি একবারে অনেকগুলি পরামিতিগুলিকে প্রভাবিত করে, যেমন প্যারামিটারগুলির পক্ষে স্থিতিশীল অন্তর্নিহিত নির্ভরতা অবধি পৌঁছানো শক্ত? ( ব্যাচের নরমালাইজেশন পেপারে উল্লিখিত অভ্যন্তরীণ কোভারিয়েট শিফ্ট সমস্যার মতো )

বা যখন প্রায় সমস্ত পরামিতি প্রতিটি পুনরাবৃত্তিতে দায়বদ্ধ থাকে তখন তারা অপ্রয়োজনীয় অন্তর্নিহিত নিদর্শনগুলি শিখতে পছন্দ করবে তাই মডেলের দক্ষতা হ্রাস পাবে? (আমি বলতে চাইছি অঙ্কের শ্রেণিবিন্যাস সমস্যার জন্য কিছু নিদর্শনগুলি বিন্দুর জন্য, কিছুগুলি প্রান্তের জন্য দায়ী হওয়া উচিত, তবে যখন এটি ঘটে তখন প্রতিটি প্যাটার্ন সকল আকারের জন্য দায়বদ্ধ হওয়ার চেষ্টা করে)।

বা এটি কারণ যেহেতু যখন ব্যাচগুলির আকার প্রশিক্ষণের সেটগুলির স্কেলটির কাছাকাছি আসে, তখন মিনিব্যাচগুলি আর ডেটা বিতরণ থেকে আইআইডি হিসাবে দেখা যায় না, কারণ সংযুক্ত মিনিব্যাচের জন্য বড় সম্ভাবনা থাকবে?


আপডেট
যেমন বেনোইট সানচেজের উত্তরে উল্লেখ করা হয়েছে তার একটি গুরুত্বপূর্ণ কারণ হ'ল বড় মিনি মিনিগুলিতে একটি আপডেট সম্পূর্ণ করার জন্য আরও বেশি গণনার প্রয়োজন হয়, এবং বেশিরভাগ বিশ্লেষণ তুলনার জন্য একটি নির্দিষ্ট পরিমাণ প্রশিক্ষণ পর্ব ব্যবহার করে।

তবে এই কাগজটি (উইলসন এবং মার্টিনেজ, 2003) দেখায় যে একটি বৃহত ব্যাচের আকার এখনও কিছুটা অসুবিধাগুলি এমনকি পর্যাপ্ত পরিমাণ প্রশিক্ষণ পর্ব দেওয়া হয়েছে। সাধারণত কি তাই হয়? এখানে চিত্র বর্ণনা লিখুন

উত্তর:


12

এন নমুনা আকার):

  • 27N
  • 8343×N200000.47N

আপনি দেখতে পাচ্ছেন যে বড় ব্যাচগুলির সাথে আপনার একই নির্ভুলতার জন্য খুব কম আপডেটের প্রয়োজন।

তবে এটি তুলনা করা যায় না কারণ এটি একই পরিমাণের ডেটা প্রক্রিয়া করছে না। আমি প্রথম নিবন্ধটি উদ্ধৃত করছি:

kBj1jkBj

এখানে এটি একই পরিমাণের ডেটা প্রক্রিয়াজাতকরণ এবং একাধিক মিনি-ব্যাচের জন্য ছোট ওভারহেড থাকার সময় এটি তুলনীয় প্রক্রিয়াকরণ সংস্থান গ্রহণ করে।

বেশ কয়েকটি আপডেট কেন আরও ভাল তা বোঝার বিভিন্ন উপায় রয়েছে (একই পরিমাণ ডেটা পড়ার জন্য)। এটি স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত বনাম গ্রেডিয়েন্ট বংশদ্ভুতের মূল ধারণা। আপনি সমস্ত কিছু পড়ার পরিবর্তে এবং তারপরে শেষে নিজেকে সংশোধন করার পরিবর্তে আপনি নিজেকে আরও সঠিক অনুমানের থেকে সংশোধন করার কারণে পরবর্তীটি আরও কার্যকরভাবে তৈরি করে চলেছেন। জ্যামিতিকভাবে, একাধিক আপডেটগুলি আরও ভাল কারণ আপনি প্রতিটি বিভাগের শুরুতে (আনুমানিক) গ্রেডিয়েন্টের দিকনির্দেশে কয়েকটি বিভাগ তৈরি করছেন। যখন একটি একক বড় আপডেট (একেবারে) গ্রেডিয়েন্টের দিক থেকে খুব প্রথম থেকেই একক বিভাগ হয়। দিকটি কম সুনির্দিষ্ট থাকলেও বেশ কয়েকবার দিক পরিবর্তন করা ভাল।

মিনি-ব্যাচগুলির আকার মূলত আপডেটগুলির ফ্রিকোয়েন্সি: ছোট মিনিব্যাট আরও আপডেট করে ches এক পর্যায়ে (মিনিবাচ = ডেটাসেট) আপনার গ্রেডিয়েন্ট বংশোদ্ভূত have অন্যান্য চরম সময়ে (মিনিবাচ = এক লাইন) আপনার প্রতি লাইনে এসজিডি পূর্ণ রয়েছে। প্রতি লাইন এসজিডি যাইহোক ভাল, তবে আরও বড় মিনিবেচগুলি আরও দক্ষ সমান্তরালতার জন্য উপযুক্ত।

রূপান্তর প্রক্রিয়া শেষে, এসজিডি (ব্যাচ) জিডির চেয়ে কম সুনির্দিষ্ট হয়ে যায়। তবে এই মুহুর্তে জিনিসগুলি (সাধারণত) এক ধরণের অব্যর্থতভাবে সুনির্দিষ্ট ফিটিং হয়ে যায়। আপনি প্রশিক্ষণ সেটে সামান্য ছোট ক্ষতি ফাংশন পাওয়ার পরেও আপনি প্রকৃত ভবিষ্যদ্বাণীমূলক শক্তি পাবেন না। আপনি কেবল খুব সুনির্দিষ্ট সর্বোত্তম সন্ধান করছেন কিন্তু এটি কোনও লাভ করে না। যদি ক্ষতির ফাংশনটি সঠিকভাবে নিয়মিত করা হয় (যা অতিরিক্ত-ফিটিং প্রতিরোধ করে) আপনি ঠিক "ওভার"-ফিট করবেন না, আপনি কেবল অকেজোভাবে "হাইপার"-ফিট। এটি পরীক্ষার সেটটিতে যথার্থতার ক্ষেত্রে অযোগ্য উল্লেখযোগ্য পরিবর্তন হিসাবে দেখায়।


1
ধন্যবাদ, এটি দুর্দান্ত ধারণা দেয়। সুতরাং মূলত যদি একই পরিমাণে আপডেট করে, তবে বৃহত্তর ব্যাচের আকারটি কমপক্ষে ভাল হিসাবে ঠিক হবে?
dontloo

আপনি কি তার উপর কোনও প্রকাশিত পরীক্ষা-নিরীক্ষা জানতে পেরেছেন (নির্দিষ্ট ব্যাখ্যার আপডেটের সাথে বিভিন্ন ব্যাচের আকারের তুলনা করছেন)?
dontloo

হ্যাঁ একই সংখ্যক আপডেটের জন্য, বড় ব্যাচগুলি সর্বদা ভাল। আমি কোনও প্রকাশনার কথা জানি না, যদি আমি কখনও একটি পাই তবে আমি এটি পোস্ট করব।
বেনোইট সানচেজ

আমি আপনার বাকি প্রশ্ন (টেবিল) পড়েছি। আকর্ষণীয়ভাবে এটি পরীক্ষা টেস্টে ফলাফলগুলি দেখায় যখন গ্রেডিয়েন্ট শালীনতার উদ্দেশ্য প্রশিক্ষণের সেটটিকে অনুকূল করা। এটি সম্ভব ছোট ছোট ব্যাচগুলি সর্বোত্তমটিকে এলোমেলো করে একটি নির্দিষ্ট ধরণের ছোট্ট ওভারফিটিং এড়ানো সম্ভব। এটি একটি সূক্ষ্ম জিনিস যা সম্পর্কে আমার কোনও স্বজ্ঞাত ধারণা নেই।
বেনোইট সানচেজ 10

নিবন্ধ অনুসারে নির্ভুলতার মধ্যে পার্থক্যটি উল্লেখযোগ্য নয়। তারা কেবল উল্লেখ করতে চায় যে নির্ভুলতা মূলত একই রকম। তারা প্রধানত যা উল্লেখ করতে চায় তা হল ছোট ব্যাচগুলির সাথে এসজিডি অনেক দ্রুত।
বেনোইট সানচেজ

4

কার্টিস হোয়াইটের উত্তরে যুক্ত করতে (এবং আরও কয়েকটি উল্লেখ যুক্ত করুন):

হ্যাঁ এসজিডি এক ধরণের নিয়মিতকরণ হিসাবে কাজ করে। এটি গুরুত্বপূর্ণ কারণ অন্যথায়, DNN গুলি কেন সবসময় বেশি মানায় না, কারণ তারা তা পারে তা ব্যাখ্যা করা শক্ত ।

কারণটি আমি বুঝতে পেরেছি যে, এসজিডি প্যারামিটার স্পেসে 'হপ্পিং' তৈরি করে, তাই প্রশিক্ষণের সময় প্যারামিটারগুলি সংক্ষিপ্ত ন্যূনতম স্থানে থাকতে পারে না, কেবল বৃহত্তর (বা নিকটে)। এবং এই বৃহত্তরগুলি আপাতদৃষ্টিতে [1] আরও ভাল সাধারণকরণ (ওরফে, কম ওভারফিটিং)।

আরও তথ্যসূত্র:

  • এখানে [২] অন্য একটি কাগজ যা এটিকে আনুষ্ঠানিক করে তোলে (বা চেষ্টা করে, আমি সমস্ত কিছু অনুসরণ করি নি, নিজের জন্য যাচাই করি!)
  • এই কাগজটি [3] দাবি করেছে যে "stochastic relaxation, or random diffusion"এসজিডির অন্তর্নিহিত স্টোকস্টাস্টিটি যে দিকে চলে আসে তার একটি পর্যায় রয়েছে "maximiz[ation of] the conditional entropy of the layer"

উভয় ধরণের বলা যে এসজিডি একটি এনট্রপি নিয়মিতকরণ শর্তের সাথে মিল রাখে।

ব্যাচের আকারের রূপান্তরকে প্রভাবিত করে এমন আরও কিছু উপায় অবশ্যই থাকতে পারে; এটিই আমি জানি।


[1] উদাহরণ: "জেনারালাইজেশন এবং স্টোচাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত উপর একটি বয়েসিয়ান দৃষ্টিভঙ্গি", স্মিথ, লে, 2018. বিমূর্ত থেকে: "We propose that the noise introduced by small mini-batches drives the parameters towards minima whose evidence is large."

[2] "স্টোচাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত পরিবর্তনশীল সূচনা সম্পাদন করে, গভীর নেটওয়ার্কগুলির জন্য চক্র সীমাবদ্ধ করতে রূপান্তর করে", চৌধুরী, সোয়াটো 2017

[3] "তথ্যের মাধ্যমে ডিপ নিউরাল নেটওয়ার্কগুলির ব্ল্যাক বক্স খোলা হচ্ছে" শোয়ার্জ-জিভ, টিশবি, 2017

[4] "গভীর শিক্ষার বোঝার জন্য পুনরায় বিবেচনা করার সাধারণীকরণ প্রয়োজন", সি জাং ইত্যাদি ২০১ 2016


(+1) ভাল রেফারেন্স। বিটিডব্লিউ, [4] এর প্রথম লেখক হলেন সি ঝাং
ব্যবহারকারী20160

ওহ আপনি ঠিক! এটি সম্পাদনা করা হয়েছে, সংশোধনের জন্য ধন্যবাদ।
ডাসউইজেন

0

একটি বড় ব্যাচের আকার কমপক্ষে এসজিডি ব্যবহার এবং কেরাস ব্যবহার করে এমএলপি প্রশিক্ষণ দেওয়ার সময় অভিব্যক্তি রোধ করতে পারে। কারণ হিসাবে, আমি গ্রেডিয়েন্টগুলির গড় গড় বা এটির সাথে সম্পর্কিত ছোট ছোট আপডেটগুলি স্থানীয় মিনিমা থেকে পালানোর সম্ভাবনা সরবরাহ করে কিনা তা আমি 100% নিশ্চিত নই।

এখানে দেখুন ।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.