শিক্ষার হার নির্বাচন করা


85

আমি বর্তমানে স্টোচাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূতিকে বাস্তবায়ন করার জন্য কাজ করছি, SGDব্যাক-বর্ধন ব্যবহার করে নিউরাল জালগুলির জন্য, এবং আমি এর উদ্দেশ্য বুঝতে গিয়ে শিখার হারের জন্য মানগুলি কীভাবে বেছে নেব সে সম্পর্কে আমার কিছু প্রশ্ন রয়েছে।

  • শেখার হারটি কী ত্রুটির গ্রেডিয়েন্টের আকারের সাথে সম্পর্কিত, যেমন এটি বংশোদ্ভূত হারকে নির্দেশ করে?
  • যদি তা হয় তবে কোনও মূল্য সম্পর্কে নিজের সিদ্ধান্তকে জানাতে আপনি এই তথ্যটি কীভাবে ব্যবহার করবেন?
  • যদি না হয় তবে আমি কী ধরণের মান পছন্দ করব এবং কীভাবে সেগুলি চয়ন করব?
  • দেখে মনে হচ্ছে আপনি ওভারশুটিং এড়াতে ছোট মান চাইবেন, তবে আপনি কীভাবে এমন একটি বেছে নিতে পারেন যে আপনি স্থানীয় মিনিমে আটকে না যান বা নামতে বেশি সময় নিবেন না?
  • ধ্রুবক শেখার হার থাকার অর্থ কী? বা গ্রেডিয়েন্টের সর্বনিম্ন কাছাকাছি আসার কারণে এর মান পরিবর্তন করতে আমি কিছু মেট্রিক ব্যবহার করব?

সংক্ষেপে: আমি কীভাবে এসজিডির জন্য শেখার হারটি বেছে নেব?

উত্তর:


69
  • শেখার হারটি কী ত্রুটির গ্রেডিয়েন্টের আকারের সাথে সম্পর্কিত, যেমন এটি বংশোদ্ভূত হারকে নির্দেশ করে?

    • সরল এসজিডিতে উত্তরটি হ'ল না। একটি বৈশ্বিক শিক্ষার হার ব্যবহৃত হয় যা ত্রুটি গ্রেডিয়েন্টের তুলনায় উদাসীন। তবে আপনি যে অন্তর্দৃষ্টিটি পাচ্ছেন তা এসজিডি আপডেট নিয়মের বিভিন্ন পরিবর্তনকে অনুপ্রাণিত করেছে।
  • যদি তা হয় তবে কোনও মূল্য সম্পর্কে নিজের সিদ্ধান্তকে জানাতে আপনি এই তথ্যটি কীভাবে ব্যবহার করবেন?

    • Adagrad বহুল এগুলোর পরিচিত এবং একটি বিশ্বব্যাপী শেখার হার আইশ η ত্রুটি গ্রেডিয়েন্ট ইতিহাস L2 আদর্শ উপর ভিত্তি করে প্রতিটি আয়তনের উপর GT প্রতিটি আয়তনের করুন:

      এখানে চিত্র বর্ণনা লিখুন

    • অ্যাডাডেল্টা হ'ল আরও একটি প্রশিক্ষণ অ্যালগরিদম যা অ্যাডাগ্রাড এবং ওজন আপডেটের ইতিহাসের মতো ত্রুটি গ্রেডিয়েন্ট ইতিহাস উভয়ই ব্যবহার করে এবং শেখার হার সেট না করার সুবিধা রয়েছে ।

  • যদি না হয় তবে আমি কী ধরণের মান পছন্দ করব এবং কীভাবে সেগুলি চয়ন করব?

    • নিউরাল নেটগুলিতে প্লেইন এসজিডির জন্য শিখার হার নির্ধারণ করা সাধারণত একটি অনুকূল মান যেমন 0.01 এর মতো বুদ্ধিমান মান দিয়ে শুরু করার পরে একটি অনুকূল মান সন্ধানের জন্য ক্রস-বৈধকরণের প্রক্রিয়া a সাধারণ মানগুলি 0.0001 থেকে 1 অবধি কয়েকটি আদেশের পরিমাণের মধ্যে থাকে।
  • দেখে মনে হচ্ছে আপনি ওভারশুটিং এড়াতে ছোট মান চান, তবে আপনি কীভাবে এমন একটি নির্বাচন করবেন যে আপনি স্থানীয় মিনিমে আটকে না যান বা নামতে খুব বেশি সময় নেন না? ধ্রুবক শেখার হার থাকার অর্থ কী? বা গ্রেডিয়েন্টের সর্বনিম্ন কাছাকাছি আসার কারণে এর মান পরিবর্তন করতে আমি কিছু মেট্রিক ব্যবহার করব?

    • সাধারণত, মানটি সর্বাধিক স্থিতিশীল শেখার হারের কাছাকাছি থাকে এবং শিক্ষার হার ক্ষয় / অ্যানিলিং (লিনিয়ার বা তাত্ক্ষণিকভাবে হয়) প্রশিক্ষণের সময় ব্যবহৃত হয়। এর পেছনের কারণটি হ'ল প্রথমদিকে একটি স্পষ্ট লার্নিং সিগন্যাল রয়েছে তাই আক্রমণাত্মক আপডেটগুলি অনুসন্ধানকে উত্সাহ দেয় যখন পরে ছোট শিক্ষার হারগুলি স্থানীয় ত্রুটির পৃষ্ঠের আরও সূক্ষ্ম শোষণের অনুমতি দেয়।

1
অনুশীলনে, আপনি অ্যাডাল্টা সহ একটি শিক্ষার হার ব্যবহার করবেন। কিছু সমস্যা ছাড়া এটি কাজ করে না।
বায়ার

এটি লক্ষ করা উচিত যে অ্যাডাম অপ্টিমাইজারটি আজকাল অ্যাডগ্রাড বা অ্যাডাডেলটার চেয়ে বেশি স্বাভাবিক।
ই_নেট 4

22

নীচে নেত্রাল জাল (ব্যাক প্রচার) এন্ড্রু এনজি দ্বারা শিক্ষার হার সম্পর্কে খুব ভাল নোট (পৃষ্ঠা 12) দেওয়া আছে। আপনি শিক্ষার হার সম্পর্কিত বিশদটি পাবেন।

http://web.stanford.edu/class/cs294a/sparseAutoencoder_2011new.pdf

আপনার চতুর্থ দফার জন্য, আপনি ঠিক বলেছেন যে সাধারণত একটি "সুষম" শিক্ষার হার বেছে নিতে হবে, এটি খুব বেশি ধীরে ধীরে ওভারশুট বা অভিজাত হওয়া উচিত নয়। লার্নিং রেট / ফাইন টিউনটি নির্ধারণের জন্য ব্যয় ফাংশনের উত্সকে উত্সাহিত করতে পারে কেউ rate অনুশীলনে, অ্যান্ড্রু সাধারণত "যথেষ্ট পরিমাণে" শেখার হার পেতে এল-বিএফজিএস অ্যালগরিদম (পৃষ্ঠা 12 তে উল্লিখিত) ব্যবহার করে।


9

শেখার হার নির্বাচন করা হাইপারপ্যারমিটার অপ্টিমাইজেশন হিসাবে পরিচিত "মেটা-সমস্যা" এর একটি উদাহরণ । সর্বাধিক শিক্ষার হার হ'ল সমস্যা, পাশাপাশি মডেলটির অনুকূলকৃত হওয়ার উপর নির্ভর করে, এবং বর্তমান অপ্টিমাইজেশান প্রক্রিয়াটিতে এমনকি মডেলের অবস্থার উপরও নির্ভর করে! এমনকি সেখানে সফ্টওয়্যার যেমন hyperparameter অপ্টিমাইজেশান অনুগত প্যাকেজ হয় পুদিনা এবং hyperopt (ঠিক উদাহরণ কয়েক, অনেক অন্যদের হবে!)।

পূর্ণ-স্কেল হাইপারপ্যারামিটার অপ্টিমাইজেশন ছাড়াও, আমি এমন একটি কৌশল উল্লেখ করতে চেয়েছিলাম যা শেখার হারগুলি বেছে নেওয়ার জন্য এখন পর্যন্ত উল্লেখ করা হয়নি যা উল্লেখ করা হয়নি common সিমুলেটেড অ্যানিলিং এমন একটি মডেলকে অনুকূলকরণের একটি কৌশল যার মাধ্যমে একটি বৃহত্তর শিক্ষার হার দিয়ে শুরু হয় এবং ধীরে ধীরে অপ্টিমাইজেশনের অগ্রগতির সাথে সাথে শিক্ষার হার হ্রাস করে। সাধারণত আপনি একটি বড় শিক্ষার হার (০.০ বা তাই) দিয়ে আপনার মডেলটিকে অনুকূল করে তুলেন এবং তারপরে প্রগতিশীলভাবে এই হারটি হ্রাস করুন, প্রায়শই প্রস্থের অর্ডারে (সুতরাং 0.01, তারপর 0.001, 0.0001 ইত্যাদি)।

যতক্ষণ অগ্রগতি হচ্ছে ততক্ষণে এক শিক্ষার হারের সাথে মডেলটি অনুকূল করতে প্রাথমিক পর্যায়ে থামার সাথে একত্রিত করা যেতে পারে , তারপরে অগ্রগতি ধীর হয়ে যাওয়ার পরে আরও একটি ছোট শিক্ষার হারে স্যুইচ করুন। বৃহত্তর শিক্ষার হার মডেলকে সাধারণ, বৃহত আকারের অপটিমার অঞ্চলগুলি সনাক্ত করতে সহায়তা করে বলে মনে হয়, অন্যদিকে ছোট হারগুলি মডেলটিকে একটি নির্দিষ্ট স্থানীয় সর্বোত্তমের দিকে ফোকাস করতে সহায়তা করে।


6

আমার মাস্টার্স থিসিস থেকে অনুলিপি-আটকানো :

  • বেশ কয়েকটি যুগের ক্ষতি যদি না কমে যায় তবে শেখার হার খুব কম হতে পারে। অপ্টিমাইজেশন প্রক্রিয়া স্থানীয় ন্যূনতমের মধ্যেও আটকে থাকতে পারে।
  • উচ্চ মানের শিক্ষার হারের কারণে ন্যানের ক্ষতি হ্রাস হতে পারে। আর একটি কারণ শূন্য দ্বারা বিভাজন বা শূন্যের লোগারিদম গ্রহণ করা taking
  • ওজন আপডেট ট্র্যাকিং: শিক্ষার হারটি সঠিকভাবে চয়ন করা হয়েছে কিনা তা পরীক্ষা করতে ওজন আপডেটগুলি ট্র্যাক করার জন্য সিএস 231 এন-এর 5 তম বক্তৃতায় আন্ড্রেজ কার্পাতি প্রস্তাব করেছিলেন। তিনি পরামর্শ দেন যে ওজন আপডেট 10-10 এর ক্রম অনুযায়ী হওয়া উচিত। ওজন আপডেট যদি খুব বেশি হয়, তবে শেখার হার হ্রাস করতে হবে। ওজন হালনাগাদ যদি খুব কম হয় তবে শেখার হার বাড়াতে হবে।
  • সাধারণ শিক্ষার হার [0.1, 0.00001] এ রয়েছে

4

আমাদের পুনরাবৃত্তির প্রক্রিয়া চলাকালীন "ধাপের আকার" হিসাবে রূপান্তরিত শেখার হার বছরের পর বছর ধরে একটি গরম সমস্যা হয়ে দাঁড়িয়েছিল এবং তা অব্যাহত থাকবে।

আমার বিষয়ে ধাপের আকারের জন্য তিনটি বিকল্প রয়েছে:

  • একটি " সময় " সম্পর্কিত এবং প্রতিটি মাত্রা একই ধাপের আকার ভাগ করে নেবে। আপনি হয়ত এরকম কিছু লক্ষ্য করেছেন

αt

টি বর্তমান পুনরাবৃত্তি সংখ্যাটি প্রদর্শন করার সময়, আলফা হাইপার প্যারামিটার

  • পরেরটি গ্রেডিয়েন্টের সাথে সংযুক্ত এবং প্রতিটি মাত্রার নিজস্ব ধাপের আকার রয়েছে। আপনি হয়ত এরকম কিছু লক্ষ্য করেছেন

1αβ+s=1t1gs2αβ+s=1tgs2

আলফা এবং বিটা হাইপার প্যারামিটার থাকা অবস্থায়, গ্রে গ্রেডিয়েন্ট প্রদর্শন করে

  • শেষটি হ'ল সময় এবং গ্রেডিয়েন্টের সংমিশ্রণ এবং এটির মতো হওয়া উচিত

1αβ+s=1t1gs2αβ+s=1tgs2+γt

অথবা

1αβ+s=1t1gs2αβ+s=1tgs2γt

আশা করি এটি আপনাকে সহায়তা করবে, সৌভাগ্য -)


আপনি কি এই জন্য একটি রেফারেন্স আছে?
জন

আপনি এফটিআরএল-এর শিখার হারের অংশটি উল্লেখ করতে পারেন, আমরা এটি টাইম এবং গ্রেডিয়েন্টের মাধ্যমে তৈরি করতে পারি।
জো

3

নিউরাল নেটওয়ার্কগুলি প্রায়শই ওজনগুলিতে গ্রেডিয়েন্ট বংশোদ্ভূত দ্বারা প্রশিক্ষিত হয়। এর অর্থ প্রতিটি পুনরাবৃত্তির সময় আমরা প্রতিটি ওজনের ক্ষেত্রে ক্ষতি ফাংশনের ডেরাইভেটিভ গণনা করতে এবং সেই ওজন থেকে এটি বিয়োগ করতে ব্যাকপ্রোপেশন ব্যবহার করি। যাইহোক, আপনি যদি এটি চেষ্টা করেন তবে ওজনগুলি প্রতিটি পুনরাবৃত্তির পরিমাণকে অনেক বেশি পরিবর্তন করবে, যা তাদের "ওভারক্র্যাক্ট" করে দেবে এবং ক্ষতিটি আসলে বৃদ্ধি / বিচ্যুতি বাড়িয়ে তুলবে। সুতরাং অনুশীলনে, লোকেরা সাধারণত এটির সাথে সম্পর্কিত ওজন থেকে বিয়োগ করার আগে "শিক্ষার হার" নামক একটি ছোট মান দ্বারা প্রতিটি ডেরাইভেটিভকে গুণ করে।

আপনি একটি স্নায়ুবিক নেটওয়ার্ক হ্রাস ফাংশনটিকে একটি পৃষ্ঠ হিসাবেও ভাবতে পারেন, যেখানে প্রতিটি দিকে আপনি যেতে পারেন এমন একটি ওজনের মান উপস্থাপন করে। গ্রেডিয়েন্ট বংশোদ্ভূত হ'ল opeালের বর্তমান দিকের দিকে ঝাঁপ দেওয়ার মতো এবং শিক্ষার হারটি আপনি যে লাফের সাথে নিয়েছেন তার দৈর্ঘ্যের মতো।


3

ডেভিডের উত্তরে যোগ করা, ফাস্টাইতে আমি যেখানে একটি নির্দিষ্ট আর্কিটেকচার ব্যবহার করে সেই ডেটার জন্য সর্বাধিক শেখার হার সন্ধানের ধারণাটি পেয়েছি।

তবে সেই জিনিসটি কেবলমাত্র ফাস্টাই / পাইটরঞ্চে বিদ্যমান। সম্প্রতি কেউ কেরাস বাস্তবায়ন করেছেন

যা ঘুরিয়ে এই কাগজগুলির উপর ভিত্তি করে:

আশাকরি এটা সাহায্য করবে.


2

আমাকে শেখার হার, জেরেমি হাওয়ার্ড এর উপর ভিত্তি করে নির্বাচন আরেকটি পন্থা করার জন্য একটি সংক্ষিপ্ত ভূমিকা দিতে যাক গভীর শিক্ষা কোর্সের 1. আপনি, গভীর খনন দেখতে চান এই ব্লগপোস্টটিকে

জেরেমি হাওয়ার্ডের কোর্সে প্রস্তাবিত শিক্ষার হারটি বিভিন্ন শিক্ষার হার চেষ্টা করার এবং ক্ষতির ক্রিয়াকে সর্বাধিক নীচে নামিয়ে আনার জন্য একটি পদ্ধতিগত পদ্ধতির উপর ভিত্তি করে। এটি মিনি ব্যাচের গ্রেডিয়েন্ট বংশোদ্ভূত পদ্ধতিতে অনেকগুলি ব্যাচগুলিকে খাওয়ানো এবং আপনি যে পদ্ধতিতে খাওয়ান সেই প্রতিটি নতুন ব্যাচ শিক্ষার হার বাড়িয়ে is যখন শেখার হার খুব সামান্য, ক্ষতির ফাংশন খুব ধীরে ধীরে হ্রাস পাবে। যখন শেখার হার খুব বড় হবে, ক্ষতির কার্যকারিতা আরও বাড়বে। এই দুটি শাসন ব্যবস্থার অভ্যন্তরে, এখানে একটি সর্বোত্তম শিক্ষার হার রয়েছে যার জন্য ক্ষতির ক্রিয়াটি দ্রুততম হ্রাস পায়। এটি নিম্নলিখিত চিত্রটিতে দেখা যায়:

এখানে চিত্র বর্ণনা লিখুন

আমরা দেখি যে ক্ষতি খুব দ্রুত কমে যায় যখন শেখার হার প্রায় । এই পদ্ধতির ব্যবহার করে, আমাদের নেটওয়ার্কের জন্য সবচেয়ে ভাল ধ্রুবক শিক্ষার হারের জন্য একটি অনুমান চয়ন করার একটি সাধারণ উপায় আমাদের রয়েছে have103

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.