নিউরোয়াল নেটওয়ার্ককে প্রশিক্ষণের জন্য ট্রেড অফ ব্যাচের আকার বনাম সংখ্যাগুলির পুনরুক্তি


221

নিউরাল নেটওয়ার্ক প্রশিক্ষণ দেওয়ার সময় সেট করতে কী পার্থক্য রয়েছে:

  • ব্যাচের আকার এবং সংখ্যার পুনরাবৃত্তি ab
  • বনাম ব্যাচের আকার থেকে এবং পুনরাবৃত্তির সংখ্যা ডিcd

কোথায় ?ab=cd

অন্যথায় এটিকে ধরে রাখার জন্য, ধরে নিই যে আমরা নিউরাল নেটওয়ার্ককে একই পরিমাণ প্রশিক্ষণের উদাহরণ দিয়ে প্রশিক্ষণ দিচ্ছি, কীভাবে অনুকূল ব্যাচের আকার এবং পুনরাবৃত্তির সংখ্যা সেট করব? (যেখানে ব্যাচের আকার * পুনরাবৃত্তির সংখ্যা = নিউরাল নেটওয়ার্কে দেখানো প্রশিক্ষণের উদাহরণগুলির সংখ্যা, একই প্রশিক্ষণের উদাহরণটি বেশ কয়েকবার সম্ভাব্যভাবে দেখানো হয়েছে)

আমি সচেতন যে ব্যাচের আকার যত বেশি, মেমরির আরও বেশি জায়গার প্রয়োজন, এবং এটি প্রায়শই দ্রুত গণনা করে তোলে। তবে প্রশিক্ষিত নেটওয়ার্কের পারফরম্যান্সের বিচারে এটি কী পার্থক্য করে?


1
এই ব্লগটি দেখুন যা সিফার -10 ডেটাসেটের নির্ভুলতার সাথে বিভিন্ন ব্যাচের আকারের প্রভাবগুলির তুলনা করার সময় সঠিক ব্যাচের আকার কীভাবে চয়ন করবেন তা বর্ণনা করে।
তেজা শ্রীনীবাস

উত্তর:


207

নীতীশ শিরীশ কেশকার, ধীভাটাস মুদিগেরে, জর্জি নোসেডাল, মিখাইল স্মাইল্যানস্কি, পিং টাক পিটার টাং থেকে। ডিপ লার্নিংয়ের জন্য লার্জ-ব্যাচের প্রশিক্ষণ: জেনারালাইজেশন গ্যাপ এবং শার্প মিনিমা। https://arxiv.org/abs/1609.04836 :

স্টোকাস্টিক গ্রেডিয়েন্ট বংশদ্ভুত পদ্ধতি এবং এর রূপগুলি হ'ল অনেক ডিপ লার্নিং কাজের জন্য পছন্দের অ্যালগরিদম। এই পদ্ধতিগুলি একটি ছোট ব্যাচের শাসন ব্যবস্থায় কাজ করে যেখানে প্রশিক্ষণের তথ্যগুলির একটি ভগ্নাংশ, সাধারণত 32--512 ডেটা পয়েন্টগুলি গ্রেডিয়েন্টের সাথে একটি আনুমানিক গণনা করার জন্য নমুনাযুক্ত হয়। অনুশীলনে দেখা গেছে যে বৃহত্তর ব্যাচ ব্যবহার করার সময় মডেলটির গুণমানের ক্ষেত্রে উল্লেখযোগ্য অবক্ষয় ঘটে, যেমনটি সাধারণকরণের ক্ষমতা দ্বারা পরিমাপ করা হয়।বৃহত্তর ব্যাচের শাসন ব্যবস্থায় এই সাধারণীকরণের কারণ হ্রাসের কারণ অনুসন্ধানের জন্য কিছু চেষ্টা করা হয়েছে, তবে এই ঘটনার সুনির্দিষ্ট উত্তর এখনও অবধি অজানা। এই গবেষণাপত্রে আমরা প্রচুর সংখ্যক প্রমাণ উপস্থাপন করেছি যা এই দৃষ্টিভঙ্গিকে সমর্থন করে যে বৃহত ব্যাচের পদ্ধতিগুলি প্রশিক্ষণ এবং পরীক্ষার কার্যকারিতাগুলির তীক্ষ্ণ মিনিমাইজারগুলিতে রূপান্তরিত করে - এবং সেই তীক্ষ্ণ মিনিমা গরিব সাধারণীকরণের দিকে পরিচালিত করে। বিপরীতে, ছোট-ব্যাচের পদ্ধতিগুলি ধারাবাহিকভাবে ফ্ল্যাট মিনিমাইজারগুলিতে রূপান্তরিত করে এবং আমাদের পরীক্ষাগুলি একটি সাধারণভাবে ধারণাকে সমর্থন করে যে এটি গ্রেডিয়েন্ট অনুমানের অন্তর্নিহিত গোলমালের কারণে। আমরা বেশ কয়েকটি পরীক্ষামূলক কৌশলগুলি নিয়েও আলোচনা করি যা বৃহত-ব্যাচের পদ্ধতিগুলি সাধারণীকরণের ব্যবধান দূর করতে এবং ভবিষ্যতের গবেষণা ধারণা এবং মুক্ত প্রশ্নগুলির একটি সেট দিয়ে উপসংহারে সহায়তা করে।

[...]

2f(x)2f(x)

[...]

এখানে চিত্র বর্ণনা লিখুন

এছাড়াও, ইয়ান গুডফেলো থেকে উত্তর দেওয়া কিছু ভাল অন্তর্দৃষ্টি কেন পুরো প্রশিক্ষণ সেটটি গ্রেডিয়েন্টটি গণনা করতে ব্যবহার করবেন না? কোরায়ায়:

ব্যয় কার্যকারিতাটি কতটা বাঁকা সে জাতীয় কারণগুলির দ্বারা শিক্ষার হারের আকার সীমাবদ্ধ। আপনি গ্রেডিয়েন্ট বংশোদ্ভূতিকে ব্যয় কার্যের সাথে লিনিয়ার সান্নিধ্য তৈরি হিসাবে ভাবতে পারেন, তারপরে সেই আনুমানিক ব্যয় বরাবর উতরাইয়ের দিকে যান। যদি ব্যয় ফাংশনটি অত্যন্ত অ-রৈখিক (উচ্চ বাঁকানো) হয় তবে সীমাবদ্ধতা খুব দূরের পক্ষে খুব ভাল হবে না, তাই কেবলমাত্র ছোট পদক্ষেপের আকারই নিরাপদ। আপনি এই বিষয়ে আরও গভীর অঙ্কন পাঠ্যপুস্তকের চতুর্থ অধ্যায়ে, সংখ্যার গণনার উপর পড়তে পারেন: http://www.dePlayningbook.org/contents/numerical.html

আপনি যখন একটি মিনিবেচে মি উদাহরণ স্থাপন করেন, আপনাকে ও (এম) গণনা করতে হবে এবং ও (এম) মেমরি ব্যবহার করতে হবে তবে আপনি কেবল ও (স্কয়ার্ট (এম)) এর একটি ফ্যাক্টর দ্বারা গ্রেডিয়েন্টে অনিশ্চয়তার পরিমাণ হ্রাস করুন। অন্য কথায়, মিনিবাচে আরও উদাহরণ স্থাপনের জন্য প্রান্তিক আয় হ্রাস পাচ্ছে। আপনি গভীর শিক্ষার পাঠ্যপুস্তকের 8 তম অধ্যায়ে, গভীর শিক্ষার জন্য অপ্টিমাইজেশন অ্যালগরিদমগুলি সম্পর্কে আরও পড়তে পারেন: http://www.DPlearningbook.org/contents/optimization.html

এছাড়াও, আপনি যদি এটির বিষয়ে চিন্তা করেন, এমনকি পুরো প্রশিক্ষণের সেট ব্যবহার করা আপনাকে সত্যিকারের গ্রেডিয়েন্ট দেয় না। সত্য গ্রেডিয়েন্ট হ'ল ডেটা উত্পন্নকরণের বিতরণ দ্বারা ভারিত সমস্ত সম্ভাব্য উদাহরণ গ্রহণের প্রত্যাশার সাথে প্রত্যাশিত গ্রেডিয়েন্ট হয়। পুরো প্রশিক্ষণ সেটটি ব্যবহার করা কেবলমাত্র একটি বৃহত মিনি মিনিচের আকারকেই ব্যবহার করা হচ্ছে, যেখানে আপনার গণনার ক্ষেত্রে আপনি যে পরিমাণ ব্যয় করেছেন তার চেয়ে আপনার মিনিব্যাচের আকার আপনি ডেটা সংগ্রহের জন্য ব্যয় করেছেন তার পরিমাণের দ্বারা সীমাবদ্ধ।

সম্পর্কিত: ব্যাচ গ্রেডিয়েন্ট বংশোদ্ভূত বনাম স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত


যেহেতু ব্যাচ_সাইজ কেবল প্রশিক্ষণ ডেটাগুলিকে ব্যাচগুলিতে বিভক্ত করে, তাই সমস্ত ব্যাচগুলিতে অভিন্ন বৈচিত্র থাকতে ডেটাসেট (নন টেম্পোরাল) পুনর্বিন্যাস করা কি বোধগম্য হবে? এটি করার ফলে ব্যাচের আকারের অপ্টিমাইজেশনের প্রয়োজনীয়তা হ্রাস পেতে পারে, যা কেবলমাত্র দ্রুত রূপান্তর খুঁজে পাওয়া ভাল। যদি তা হয় তবে এটি কীভাবে হবে? আমি ভাবছিলাম এটি কোনও চাটুকার মিনিমা সরবরাহ করতে পারে না। বিস্তারিত দিকনির্দেশনা প্রশংসা করবে।
ব্যবহারকারী 12348

@ user12348 আপনি কীভাবে ডেটাসেটটি পুনর্বিন্যাস করবেন? আপনি কীভাবে অনুমান করতে পারেন যে প্রদত্ত ডেটা মাত্রা প্রশিক্ষণের পরে নির্দিষ্ট বৈশিষ্ট্য ভেক্টর তৈরি করবে?
মেঘ চো

46

আমি ধরে নিচ্ছি আপনি একটি মিনি ব্যাচের স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত অ্যালগরিদমে ব্যাচের আকার হ্রাস করার বিষয়ে কথা বলছেন এবং এর তুলনায় বৃহত্তর ব্যাচের আকারের তুলনায় কম পুনরাবৃত্তি প্রয়োজন।

অ্যান্ড্রু এনজি। এমএল এবং নিউরাল নেটওয়ার্কগুলিতে এটি এবং তার অনলাইন কোর্স শ্রেণিতে কিছু ভিজ্যুয়াল সম্পর্কে একটি ভাল আলোচনা সরবরাহ করে। সুতরাং এই পোস্টের বাকী অংশটি বেশিরভাগই সেই শ্রেণীর কাছ থেকে তাঁর শিক্ষাগুলির নিয়মিত।

আসুন দুটি চূড়ান্ত পদক্ষেপ নেওয়া যাক, একদিকে প্রতিটি গ্রেডিয়েন্ট বংশদ্ভুত পদক্ষেপটি পুরো ডেটাसेट ব্যবহার করছে। আপনি প্রতিটি নমুনার জন্য গ্রেডিয়েন্টগুলি গণনা করছেন। এই ক্ষেত্রে আপনি জানেন ঠিক একটি স্থানীয় সর্বনিম্ন প্রতি সরাসরি সেরা। আপনি ভুল পথে যেতে সময় নষ্ট করবেন না। সুতরাং গ্রেডিয়েন্ট বংশোদ্ভূত পদক্ষেপের সংখ্যার দিক থেকে, আপনি সেখানে খুব কমই পাবেন।

অবশ্যই পুরো ডেটাসেটের উপরে গ্রেডিয়েন্টের গণনা ব্যয়বহুল। সুতরাং এখন আমরা অন্যান্য চরম দিকে যান। মাত্র 1 নমুনার একটি ব্যাচের আকার। এই ক্ষেত্রে সেই নমুনার গ্রেডিয়েন্ট আপনাকে পুরোপুরি ভুল দিকনির্দেশ নিতে পারে take তবে ওহে, এক গ্রেডিয়েন্টের কম্পিউটিংয়ের ব্যয়টি বেশ তুচ্ছ। আপনি কেবলমাত্র একটি নমুনা সম্পর্কে কিছু পদক্ষেপ নেওয়ার পরে আপনি কিছুটা "ঘোরাফেরা" করছেন, তবে গড়ে আপনি পুরো ব্যাচের গ্রেডিয়েন্ট বংশোদ্ভূত হিসাবে সমান যুক্তিযুক্ত স্থানীয় ন্যূনতম দিকে এগিয়ে যান।

এটি একটি মুহুর্তে উল্লেখ করতে পারে যে আমি এমন কিছু সাহিত্য দেখেছি যা পরামর্শ দিচ্ছে যে সম্ভবত এই 1-নমুনা স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত উত্সাহটি আপনাকে স্থানীয় মিনিমা থেকে পুরো বাচ মোড এড়াতে সহায়তা করবে না, তবে এটি বিতর্কযোগ্য। এখানে আরও কিছু ভাল উত্তর আমার চেয়ে বেশি সরাসরি এই প্রশ্নের সমাধান করে।

গণনার ক্ষমতার দিক থেকে, যদিও একক নমুনা স্টোকাস্টিক জিডি প্রক্রিয়া আরও অনেকগুলি পুনরাবৃত্তি গ্রহণ করে, আপনি সম্পূর্ণ ব্যাচের মোডের চেয়ে কম ব্যয়ে সেখানে পৌঁছে শেষ করেন, "সাধারণত"। অ্যান্ড্রু এনজি এভাবেই রাখে।

এখন আপনি যে মিডল গ্রাউন্ড সম্পর্কে জিজ্ঞাসা করেছিলেন সেটিকে খুঁজে বের করুন। আমরা বুঝতে পারি যে আধুনিক বিএলএএস লাইব্রেরিগুলি কম্পিউটিং ভেক্টর গণিতকে বেশ দক্ষ করে তোলে, সুতরাং 10 বা 100 টি নমুনা একবারে গণনা করে, ধরে নেওয়া যায় যে আপনি আপনার কোডটি যথাযথভাবে ভেক্টর করেছেন, 1 নমুনা গণনা করার চেয়ে সবেমাত্র কাজ হবে (আপনি মেমোরি কল দক্ষতা অর্জন করার পাশাপাশি) সর্বাধিক দক্ষ গণিত লাইব্রেরিতে অন্তর্নির্মিত গণনা কৌশল)। এবং 10, 100, 1000 স্যাম্পলগুলির একটি ব্যাচের উপর গড় গড় একটি গ্রেডিয়েন্ট তৈরি করতে চলেছে যা সত্য, পূর্ণ ব্যাচ-মোড গ্রেডিয়েন্টের আরও যুক্তিসঙ্গত। সুতরাং আমাদের পদক্ষেপগুলি এখন আরও নির্ভুল, যার অর্থ আমাদের রূপান্তর করতে তাদের মধ্যে কম সংখ্যক প্রয়োজন এবং এমন এক ব্যয়ে যা একক নমুনা জিডির চেয়ে সামান্য বেশি।

আপনার যে মিনি-ব্যাচটি ব্যবহার করা উচিত তার সঠিক আকারটি অপ্টিমাইজ করা সাধারণত পরীক্ষা এবং ত্রুটি থেকে যায়। দশম থেকে কয়েক হাজার পর্যন্ত সংখ্যা সহ ডেটাসেটের একটি নমুনায় কিছু পরীক্ষা চালান এবং দেখুন কোনটি দ্রুততম রূপান্তর করে, তারপরে এটি যান। এই ব্যাপ্তিগুলিতে ব্যাচের আকারগুলি সাহিত্য জুড়ে বেশ সাধারণ মনে হয়। এবং যদি আপনার ডেটা সত্যই আইআইডি হয়, তবে এলোমেলো প্রক্রিয়াগুলির পরিবর্তনের উপর কেন্দ্রীয় সীমাবদ্ধ তত্ত্বটিও বোঝায় যে এই ব্যাপ্তিগুলি সম্পূর্ণ গ্রেডিয়েন্টের একটি যুক্তিসঙ্গত অনুমান।

পুনরাবৃত্তি কখন বন্ধ করা উচিত ঠিক তা স্থির করে বৈধতা যাচাইয়ের জন্য প্রশিক্ষণহীন বিরুদ্ধে আপনার জেনারালাইজেশন ত্রুটিটি পর্যবেক্ষণ করে এবং যা পয়েন্টে যাচাইয়ের ত্রুটি তার সর্বনিম্ন পয়েন্টে হয় তা বেছে নেওয়া হয়। অনেকগুলি পুনরাবৃত্তির জন্য প্রশিক্ষণ অবশেষে অত্যধিক মানানসই দিকে নিয়ে যায়, যার পর্যায়ে আপনার বৈধতা সেটটিতে আপনার ত্রুটি আরোহণ শুরু হবে। আপনি যখন এটি আবার ঘটতে দেখবেন এবং অনুকূল পয়েন্টে থামবেন।


22

টিএল; ডিআর: খুব বড় একটি মিনি-ব্যাচের আকার সাধারণত কম নির্ভুলতার দিকে নিয়ে যায় !

আগ্রহীদের জন্য, এখানে একটি ব্যাখ্যা দেওয়া হয়েছে।

গতির দুটি ধারণা রয়েছে:

  • গণনার গতি
  • একটি অ্যালগরিদমের রূপান্তর গতি

গণনার গতি হ'ল হার্ডওয়ারে সংখ্যার গণনা সম্পাদনের গতি। যেমনটি আপনি বলেছেন, এটি সাধারণত বড় মিনি-ব্যাচের আকারের চেয়ে বেশি। এর কারণ লিনিয়ার বীজগণিত গ্রন্থাগারগুলি ভ্যাক্টর এবং ম্যাট্রিক্স অপারেশনের জন্য আরও মেমরি ব্যবহার করে ব্যয় করে ভেক্টরাইজেশন ব্যবহার করে। লাভ একটি বিন্দু অবধি গুরুত্বপূর্ণ হতে পারে। আমার অভিজ্ঞতা থেকে, এমন একটি পয়েন্ট রয়েছে যার পরে গতিতে কেবল প্রান্তিক লাভ রয়েছে, যদি থাকে তবে। পয়েন্টটি ডেটা সেট, হার্ডওয়্যার এবং একটি লাইব্রেরির উপর নির্ভর করে যা সংখ্যামূলক গণনা (হুডের নীচে) জন্য ব্যবহৃত হয়।

তবে, আসুন ভুলে যাবেন না যে গতির অন্য ধারণাটিও রয়েছে, যা আমাদের অ্যালগরিদমকে কত দ্রুত রূপান্তরিত করে তা বলে।

প্রথমত, আমাদের অ্যালগরিদমটি রূপান্তরিত করার অর্থ কী? ওয়েল, বৈধকরণ সেটটিতে গণনা করা আমরা যখন কোন নির্ভুলতা বা কোনও ত্রুটির সাথে সন্তুষ্ট হই তখন সংজ্ঞায়িত করা এবং সিদ্ধান্ত নেওয়া আমাদের উপর নির্ভর করে। আমরা হয় এটিকে আগে থেকেই সংজ্ঞায়িত করতে পারি এবং আলগোরিদমটি সেই পর্যায়ে আসার জন্য অপেক্ষা করতে পারি, বা আমরা যখন প্রশিক্ষণের প্রক্রিয়াটি পর্যবেক্ষণ করতে পারি এবং বৈধতা ত্রুটি উল্লেখযোগ্যভাবে বৃদ্ধি পেতে শুরু করে তখন এটি বন্ধ করার সিদ্ধান্ত নিতে পারি (মডেলটি ডেটা সেটটিকে উপভোগ করতে শুরু করে)। আমাদের এখনই এটি বন্ধ করা উচিত নয়, প্রথম মুহূর্তে ত্রুটিটি বাড়তে শুরু করে, যদি আমরা মিনি ব্যাচগুলির সাথে কাজ করি, কারণ আমরা স্টোকাস্টিক গ্রেডিয়েন্ট ডেসেন্ট, এসজিডি ব্যবহার করি। (পূর্ণ ব্যাচ) গ্রেডিয়েন্ট বংশোদ্ভূত ক্ষেত্রে, প্রতিটি যুগের পরে, অ্যালগরিদম ন্যূনতম স্থলে স্থির হবে, সে স্থানীয় বা বিশ্বব্যাপী। এসজিডি সত্যিই কখনই ন্যূনতম স্থানে স্থির হয় না। এটি চারপাশে দোদুল্যমান থাকে। এটি অনির্দিষ্টকালের জন্য যেতে পারে,

এখন, সমস্ত তত্ত্বের পরে, একটি "ক্যাচ" রয়েছে যা আমাদের মনোযোগ দিতে হবে। একটি ছোট ব্যাচের আকার ব্যবহার করার সময়, আমরা বৃহত্তর ব্যাচের আকার ব্যবহার করার চেয়ে ত্রুটির গণনায় আরও শব্দ হয়। একজন বলবেন, আচ্ছা, খারাপ, তাই না? বিষয়টি হ'ল, এই শব্দটি অ্যালগরিদমকে খারাপ স্থানীয় সর্বনিম্ন থেকে বেরিয়ে যেতে সহায়তা করতে পারে এবং আরও ভাল স্থানীয় ন্যূনতম সন্ধানের আরও সম্ভাবনা থাকতে পারে, বা আশা করা যায় যে সর্বনিম্ন সর্বনিম্ন।

সুতরাং, আমরা যদি কেবলমাত্র "অযাচিত" শব্দের সাহায্যে একটি বৃহত্তর পরিবর্তে একটি ছোট ব্যাচের আকার ব্যবহার করে আরও দ্রুততর সমাধান খুঁজে পেতে পারি, তবে আমাদের অ্যালগরিদমকে সন্তোষজনক সন্ধান করতে মোট সময় লাগে তার মধ্যে আমরা সুর করতে পারি সমাধান এবং একটি উচ্চতর নির্ভুলতা।

আমি যা বলতে চাই তা হল, নির্দিষ্ট প্রদত্ত নির্ভুলতার জন্য (বা ত্রুটি), ছোট ব্যাচের আকারের ফলে ছোট প্রশিক্ষণের আরও কম সময় হতে পারে, যতক্ষণ না অনেকে বিশ্বাস করেন।

বা, যদি আমরা আগের মতো একই প্রশিক্ষণের সময়টি রাখার সিদ্ধান্ত নিই তবে আমরা একটি ছোট ব্যাচের আকারের সাথে কিছুটা উচ্চতর নির্ভুলতা পেতে পারি এবং সম্ভবত আমরা যদি আমাদের শিক্ষার হারটি যথাযথভাবে বেছে নিয়ে থাকি তবে তা সম্ভবত আমরা করব।

আপনার যদি সময় থাকে তবে এই কাগজটি দেখুন: বিশেষত চিত্রাবলীতে সিএনএন অগ্রযাত্রার পদ্ধতিগত মূল্যায়ন "3.7। ব্যাচের আকার এবং শিক্ষার হার", এবং চিত্র 8 দেখুন You আপনি দেখতে পাবেন যে বড় মিনি-ব্যাচের আকারগুলি আরও খারাপ নির্ভুলতার দিকে পরিচালিত করে এমনকি, যদি একটি হিউরিস্টিকের কাছে শেখার হার টিউন করা হয়।

সাধারণভাবে, ৩২ এর ব্যাচের আকারটি একটি ভাল প্রারম্ভিক বিন্দু, এবং আপনার 64৪, 128, এবং 256 দিয়েও চেষ্টা করা উচিত Other অন্যান্য মান (নিম্ন বা উচ্চতর) কিছু ডেটা সেটের জন্য ভাল হতে পারে তবে প্রদত্ত পরিসরটি সাধারণত সর্বোত্তম সঙ্গে পরীক্ষা শুরু। যদিও, 32 বছরের কম বয়সী, কম পরিসংখ্যানগত গতির কারণে পুরো পরিমাণে ভেক্টরাইজেশনকে ব্যবহার না করার কারণে এটি খুব ধীর হতে পারে। যদি আপনি একটি "মেমরির বাইরে" ত্রুটি পান তবে আপনার মিনি-ব্যাচের আকারটি হ্রাস করার চেষ্টা করা উচিত।

সুতরাং, এটি মেমরির সাথে খাপ খায় এমন বৃহত্তম সম্ভাব্য মিনি-ব্যাচের আকারটি ব্যবহার করার বিষয়ে নয়।

আপনার প্রশ্নের উপসংহার এবং উত্তর দেওয়ার জন্য, একটি ছোট মিনি-ব্যাচের আকার (খুব ছোট নয়) সাধারণত একটি বড় ব্যাচের আকারের চেয়ে কেবল একটি প্রশিক্ষণের অ্যালগোরিদমের সংখ্যার পুনরাবৃত্তির দিকে পরিচালিত করে না, তবে সামগ্রিকভাবে উচ্চতর নির্ভুলতায়ও আসে, যেমন, একটি নিউরাল নেটওয়ার্ক যা প্রশিক্ষণের সময়, বা তার চেয়ে কম পরিমাণে আরও ভাল পারফর্ম করে।

ভুলে যাবেন না যে উচ্চতর শব্দটি এটিকে আটকে রাখার চেয়ে খারাপ স্থানীয় সর্বনিম্ন থেকে লাফিয়ে উঠতে সহায়তা করতে পারে।


14

গুগলের একটি নতুন (2018) আইসিএলআর সম্মেলনের কাগজ যা এই প্রশ্নটিকে প্রায় সরাসরি সম্বোধন করে আমি এই প্রশ্নের অন্য উত্তর যুক্ত করছি।

শিরোনাম: শিক্ষার হার ক্ষয় করবেন না, ব্যাচের আকার বাড়ান

https://arxiv.org/abs/1711.00489

উপরের কাগজটির বিমূর্তটি এখানে অনুলিপি করা হয়েছে:

শিক্ষার হার ক্ষয় করা সাধারণ অনুশীলন। এখানে আমরা দেখাই যে প্রশিক্ষণ চলাকালীন ব্যাচের আকার বাড়িয়ে প্রশিক্ষণ ও পরীক্ষার উভয় সেটগুলিতে একজন একই শিক্ষার বক্ররেখা অর্জন করতে পারে। এই পদ্ধতিটি স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত (এসজিডি), গতিবেগ সহ এসজিডি, নেস্টারভের গতিবেগ এবং অ্যাডামের পক্ষে সফল। এটি একই সংখ্যক প্রশিক্ষণ পর্বের পরে সমমানের পরীক্ষার যথাযথতায় পৌঁছে যায়, তবে কম প্যারামিটার আপডেটের সাথে আরও বেশি সমান্তরালতা এবং আরও ছোট প্রশিক্ষণের সময় বাড়ে। শিখার হার rate এবং ব্যাচের আকার B∝ϵ কে স্কেল করে আমরা প্যারামিটার আপডেটের সংখ্যা আরও কমাতে পারি ∝ϵ অবশেষে, কেউ গতিবেগের সহগ মি এবং স্কেল B∝1 / (1 মিমি) বাড়িয়ে তুলতে পারে, যদিও এটি পরীক্ষার যথার্থতা কিছুটা হ্রাস করে। গভীরভাবে, আমাদের কৌশলগুলি আমাদের হাইপার-প্যারামিটার টিউনিং ছাড়াই বৃহত ব্যাচের প্রশিক্ষণের জন্য বিদ্যমান প্রশিক্ষণের সময়সূচী পুনরায় আকারের অনুমতি দেয়। আমরা ইমেজনেট থেকে রিসনেট -50 30 মিনিটের মধ্যে 76.1% বৈধতা যথার্থতায় প্রশিক্ষণ দিই।


1
একটি বৃহত্তর মেমরির প্রয়োজনীয়তা কেবল কোনও মান হ্রাস এড়ানোর জন্য খারাপ বাণিজ্য বলে মনে হয়। এছাড়াও আইএমএইচও প্রশিক্ষণের সময় মেমরির পদচিহ্নগুলি বর্ধন করে এমন কম, বেশি নয়, স্কেলযোগ্য অ্যালগরিদম করে।
পি-জিএন

3

আমি এখানে কিছু অভিজ্ঞতা অভিজ্ঞতা প্রদর্শন । আমি ব্যাচের আকার 4 এবং ব্যাচের আকার 4096 নিয়ে একটি পরীক্ষা করেছি 40 4096 আকারটি 1024x কম ব্যাকপ্রকাশগুলি করছে। সুতরাং আমার স্বজ্ঞাততা হ'ল বৃহত্তর ব্যাচগুলি অনুকূল সমাধানের জন্য কম এবং মোটা অনুসন্ধানের পদক্ষেপ নেয় এবং তাই নির্মাণের দ্বারা অনুকূল সমাধানটিতে রূপান্তরিত হওয়ার সম্ভাবনা কম।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.