ব্যবহারিক হাইপারপ্যারামিটার অপ্টিমাইজেশন: এলোমেলো বনাম গ্রিড অনুসন্ধান


41

আমি বর্তমানে হাইপার-প্যারামিটার অপ্টিমাইজেশনের জন্য বেনজিও এবং বার্গস্তার র্যান্ডম অনুসন্ধানের মধ্য দিয়ে যাচ্ছি [1] যেখানে লেখকরা দাবি করেন যে প্রায় সমান পারফরম্যান্স অর্জনে গ্রিড অনুসন্ধানের চেয়ে র্যান্ডম অনুসন্ধান আরও দক্ষ efficient

আমার প্রশ্ন: এখানকার লোকেরা কি এই দাবির সাথে একমত? আমার কাজটিতে আমি গ্রিড অনুসন্ধানটি বেশিরভাগ ক্ষেত্রে সহজেই এলোমেলো অনুসন্ধান চালানোর জন্য উপলব্ধ সরঞ্জামগুলির অভাবের কারণে ব্যবহার করছি।

গ্রিড বনাম বনাম এলোমেলো অনুসন্ধানের অভিজ্ঞতা কী?


এলোমেলো অনুসন্ধান আরও ভাল এবং সর্বদা পছন্দ করা উচিত। তবে হাইপারপ্যারামিটার অপটিমাইজেশনের জন্য উত্সর্গীকৃত গ্রন্থাগারগুলি যেমন অপ্টিউটিউনি , হাইপারপট বা বায়সোপ্ট ব্যবহার করা আরও ভাল ।
মার্ক ক্লিসেন

বেনজিও ইত্যাদি। এটি সম্পর্কে এখানে লিখুন: কাগজ.নিপস.সি.সি. / পেপার /… সুতরাং, জিপি সবচেয়ে ভাল কাজ করে, তবে আরএসও দুর্দান্ত কাজ করে।
গাই এল

10
@ মার্ক আপনি যখন জড়িত তার কোনও লিঙ্ক সরবরাহ করবেন, তখন আপনার সাথে তার সম্পর্ক পরিষ্কার করা উচিত (এক বা দুটি শব্দই যথেষ্ট, এমনকি এটি যেমন উল্লেখ করা our Optunityউচিত তেমন সংক্ষিপ্তও কিছু ); যেমন আচরণের সহায়তায় বলা হয়েছে, "যদি কিছু ... আপনার পণ্য বা ওয়েবসাইট সম্পর্কে ঘটে থাকে তবে তা ঠিক আছে However তবে আপনাকে অবশ্যই আপনার অনুমোদিততা প্রকাশ করতে হবে"
Glen_b ২

উত্তর:


39

র্যান্ডম অনুসন্ধানের কেবলমাত্র 60 টি পুনরাবৃত্তির সাথে 5% অপটিমার মধ্যে প্যারামিটারগুলির সংমিশ্রণের 95% সম্ভাবনা রয়েছে। স্থানীয় পদ্ধতির তুলনায় এটি অন্যান্য পদ্ধতির সাথে তুলনা করে না।

পরীক্ষা করে দেখুন দাতো এ এই মহান ব্লগ পোস্টে এলিস Zheng দ্বারা, বিশেষ করে অধ্যায় Hyperparameter টিউনিং আলগোরিদিম

আন্ডারডগ জিতে এমন সিনেমাগুলি আমি পছন্দ করি এবং আমি মেশিন লার্নিংয়ের কাগজপত্রগুলিকে পছন্দ করি যেখানে সহজ সমাধানগুলি আশ্চর্যজনকভাবে কার্যকর হিসাবে দেখানো হয়। এটি বার্গস্ট্র্রা এবং বেঞ্জিওর "হাইপারপ্যারমিটার অপ্টিমাইজেশনের জন্য এলোমেলো অনুসন্ধান" এর গল্পকথন। [...] এলোমেলো অনুসন্ধান আগে খুব বেশি গুরুত্ব সহকারে নেওয়া হয় নি। এটি কারণেই এটি সমস্ত গ্রিড পয়েন্ট অনুসন্ধান করে না, তাই এটি গ্রিড অনুসন্ধানের দ্বারা পাওয়া সর্বোত্তমটিকে মারতে পারে না। তবে তারপরে বার্গস্ট্র্রা এবং বেঞ্জিও এসেছিল। তারা দেখিয়েছিল যে আশ্চর্যজনকভাবে অনেক ক্ষেত্রে, এলোমেলো অনুসন্ধান গ্রিড অনুসন্ধানের পাশাপাশি সম্পাদন করে। সব মিলিয়ে গ্রিড থেকে নমুনাযুক্ত 60 টি এলোমেলো পয়েন্ট চেষ্টা করা যথেষ্ট ভাল বলে মনে হচ্ছে।

অন্ধকারে, ফলাফলটির জন্য একটি সাধারণ সম্ভাব্য ব্যাখ্যা রয়েছে: একটি সীমাবদ্ধ সর্বাধিক স্যাম্পল স্থানের উপর কোনও বিতরণের জন্য, সর্বোচ্চ 60০% এলোমেলো পর্যবেক্ষণ 95% সম্ভাব্যতার সাথে সত্যিকারের সর্বোচ্চ 5% এর মধ্যে থাকে। এটি জটিল মনে হতে পারে, তবে তা নয়। সত্য সর্বাধিক 5% ব্যবধান কল্পনা করুন। এখন কল্পনা করুন যে আমরা তাঁর স্থান থেকে পয়েন্টগুলি নমুনা করেছি এবং দেখুন এটির কোনওটি সর্বোচ্চের মধ্যে অবতরণ করছে কিনা। প্রতিটি র্যান্ডম ড্রয়ের সেই ব্যবধানে অবতরণের 5% সুযোগ থাকে, যদি আমরা স্বতন্ত্রভাবে n পয়েন্টগুলি আঁকি, তবে তাদের পছন্দসই ব্যবধানটি মিস করার সম্ভাবনাটি (10.05)n। সুতরাং সম্ভাব্যতা যে তাদের মধ্যে অন্তত একটি অন্তরকে আঘাত করতে সফল হয় সেই পরিমাণটি 1 বিয়োগ করে। আমরা সাফল্যের কমপক্ষে একটি .95 সম্ভাবনা চাই। আমাদের কতগুলি অঙ্কন প্রয়োজন তা বের করতে, কেবল সমীকরণের জন্য সমাধান করুন:

1(10.05)n>0.95

আমরা । Ta-দা!n60

গল্পটির নৈতিকতা হ'ল হাইপারপ্যারামিটারগুলির নিকটতম-সর্বোত্তম অঞ্চল গ্রিড পৃষ্ঠের কমপক্ষে 5% দখল করে, তবে 60 টি ট্রায়ালের সাথে এলোমেলো অনুসন্ধানে সেই অঞ্চলটি উচ্চ সম্ভাবনার সাথে খুঁজে পাবে।

আপনি উচ্চতর পরীক্ষার মাধ্যমে সেই সুযোগটি উন্নত করতে পারেন।

সব মিলিয়ে আপনার যদি সুর করার মতো অনেকগুলি প্যারামিটার থাকে তবে গ্রিড অনুসন্ধান অপ্রয়োজনীয় হতে পারে। আমি যখন এলোমেলো অনুসন্ধানের চেষ্টা করি তখনই।


3
ব্লগ পোস্টের লিঙ্কটি নিচে রয়েছে :( এটি কি একই নিবন্ধ হতে পারে? Oreilly.com/ideas/evaluating-machine-learning-models/page/5/…
n1k31t4

@ ডেক্সটারমরগান হেই, মাথা উঁচু করার জন্য ধন্যবাদ। হ্যাঁ, ব্লগটি দৃশ্যত নিচে রয়েছে এবং আমি নিশ্চিত নই যে আমার অন্যান্য উত্সগুলির সাথে আমার লিঙ্ক করা উচিত যা "অফিসিয়াল" নাও হতে পারে , তাই আমি এখনই ঠিক রেখে দেই বলে আমি মনে করি।
ফায়ারব্যাগ

ব্লগটি এখনও নিচে রয়েছে ... এটি উদ্ধৃত করার জন্য ধন্যবাদ এবং আরও পড়ার জন্য একটি লিঙ্ক সরবরাহ করার জন্য @ n1k31t4 ধন্যবাদ!
llrs

8

কাগজ থেকে গ্রাফিকটি আবার দেখুন (চিত্র 1) বলুন যে আপনার কাছে দুটি প্যারামিটার রয়েছে, 3x3 গ্রিড অনুসন্ধানের সাথে আপনি প্রতিটি প্যারামিটার থেকে কেবল তিনটি পৃথক প্যারামিটার মান (বামদিকে প্লটের তিনটি সারি এবং তিনটি কলাম) পরীক্ষা করেন, যখন এলোমেলো অনুসন্ধানের সাথে আপনি নয়টি (!) বিভিন্ন প্যারামিটার মান পরীক্ষা করে দেখেন প্রতিটি প্যারামিটারের (নয়টি স্বতন্ত্র সারি এবং নয়টি পৃথক কলাম)।

গ্রিড বনাম এলোমেলো অনুসন্ধান

স্পষ্টতই, এলোমেলো অনুসন্ধান, সুযোগক্রমে, প্যারামিটারগুলির সমস্ত পরিসরের জন্য প্রতিনিধি নাও হতে পারে, তবে নমুনার আকার বাড়ার সাথে সাথে এর সম্ভাবনা আরও কম এবং ছোট হতে পারে।


6

আপনি যদি গ্রিড অনুসন্ধানে কোনও ফাংশন লিখতে পারেন তবে এলোমেলো অনুসন্ধানের জন্য কোনও ফাংশন লিখতে সম্ভবত এটি আরও সহজ কারণ আপনাকে গ্রিড আপকে পূর্বনির্ধারিত এবং সঞ্চয় করতে হবে না।

এটিকে আলাদা করে রেখে, এলআইপিওও, কণা জলাভূমি অপ্টিমাইজেশন এবং বায়সিয়ান অপ্টিমাইজেশনের মতো পদ্ধতিগুলি হাইপারপ্যারামিটারগুলি আরও ভাল হওয়ার সম্ভাবনা সম্পর্কে বুদ্ধিমান পছন্দ করে তোলে, সুতরাং আপনার যদি মডেলের সংখ্যাটি নিখুঁত ন্যূনতমের সাথে ফিট রাখতে হয় তবে (বলুন, কারণ এটি কোনও ব্যয়বহুল ব্যয়বহুল) মডেল), এই সরঞ্জামগুলি আশাব্যঞ্জক বিকল্প রয়েছে। এগুলিও গ্লোবাল অপটিমাইজার, সুতরাং তাদের বিশ্বব্যাপী সর্বাধিক সন্ধানের উচ্চ সম্ভাবনা রয়েছে। বিও পদ্ধতির কিছু অধিগ্রহণের কার্যক্রমে প্রবণতা অনুভূতি রয়েছে, যা তাদের আরও আকর্ষণীয় করে তোলে।

এই প্রশ্নগুলিতে আরও তথ্য পাওয়া যাবে:

বায়সিয়ান হাইপার প্যারামিটার অপ্টিমাইজেশনের কিছু ক্ষতিসাধন কী কী?

অনুকূল কার্যকারিতা মূল্য নির্ধারণ করতে যখন ধীর গতি কমায়


2

ডিফল্টরূপে, এলোমেলো অনুসন্ধান এবং গ্রিড অনুসন্ধান হ'ল ভয়ঙ্কর অ্যালগরিদম যদি না থাকে তবে নিম্নলিখিতগুলির মধ্যে একটি হোল্ড হয়।

  • আপনার সমস্যার কোনও বৈশ্বিক কাঠামো নেই, উদাহরণস্বরূপ, যদি সমস্যাটি বহু মডেল হয় এবং স্থানীয় অপ্টিমার সংখ্যা বিশাল
  • আপনার সমস্যা গোলমাল, অর্থাত্, একই সমাধানের দুবার মূল্যায়ন করা হলে বিভিন্ন উদ্দেশ্যমূলক ফাংশন মানগুলি বাড়ে
  • ভেরিয়েবলের সংখ্যার তুলনায় উদ্দেশ্য ফাংশন কলগুলির বাজেট খুব কম, যেমন 1x বা 10x এর চেয়ে ছোট।
  • ভেরিয়েবলের সংখ্যা খুব কম, উদাহরণস্বরূপ, 5 এর চেয়ে ছোট (অনুশীলনে)।
  • কিছু অন্যান্য শর্ত।

বেশিরভাগ লোক দাবি করেন যে গ্রিড অনুসন্ধানের চেয়ে এলোমেলো অনুসন্ধান ভাল। যাইহোক, নোট করুন যখন ফাংশন মূল্যায়নের মোট সংখ্যার পূর্বনির্ধারিত হয়, গ্রিড অনুসন্ধান অনুসন্ধানের স্থানের ভাল কভারেজের দিকে নিয়ে যায় যা একই বাজেটের সাথে এলোমেলো অনুসন্ধানের চেয়ে খারাপ নয় এবং যদি দুটি হয় তবে উভয়ের মধ্যে পার্থক্য নগণ্য। আপনি যদি কিছু অনুমান যুক্ত করতে শুরু করেন, যেমন, আপনার সমস্যা বিভাজ্য বা প্রায় বিচ্ছিন্ন, তবে গ্রিড অনুসন্ধানকে সমর্থন করার জন্য আপনি যুক্তি খুঁজে পাবেন। সামগ্রিকভাবে, উভয়ই খুব কম ক্ষেত্রে না তুলনামূলকভাবে ভয়ানক। সুতরাং, সমস্যাটি সম্পর্কে কিছু অতিরিক্ত অনুমান বিবেচনা না করা হলে তাদের মধ্যে পার্থক্য করার প্রয়োজন নেই।


আপনি ভাল কিছু প্রস্তাব করতে পারেন? আমরা চেষ্টা না করলে কীভাবে সেরা তা আমরা কীভাবে জানতে পারি? আমার কাছে মনে হয় অনেক মডেলের র্যান্ডম অনুসন্ধান হ'ল সেরা আপোসেশন সমাধান।
জেপিআরউইন

0

শুধুমাত্র একটি ম্যাক্সিমার সাথে 2 ডি টপোগ্রাফিতে 95% ম্যাক্সিমার মধ্যে স্পট সন্ধান করতে 100% / 25 = 25%, 6.25%, 1.5625%, বা 16 টি পর্যবেক্ষণ লাগে। যতক্ষণ না প্রথম চারটি পর্যবেক্ষণ সঠিকভাবে নির্ধারণ করে যে কোন চতুষ্কোণ (এক্সট্রিমার) মধ্যে রয়েছে 1 1D টোগোগ্রাফি 100/2 = 50, 25, 12.5, 6.25, 3.125 বা 5 * 2 লাগে। আমি অনুমান করি যে একাধিক দূরবর্তী স্থানীয় ম্যাক্সিমায় অনুসন্ধান করা লোকেরা বড় ইনিটাল গ্রিড অনুসন্ধানের পরে রিগ্রেশন বা অন্য কোনও পূর্বাভাস পদ্ধতি ব্যবহার করে। 60 টি পর্যবেক্ষণের গ্রিডে অতিরিক্ত মাত্রার 100/60 = 1.66% এর মধ্যে একটি পর্যবেক্ষণ থাকা উচিত। গ্লোবাল অপ্টিমাইজেশন উইকিপিডিয়া আমার এখনও মনে হয় এলোমেলোতার চেয়ে সবসময় আরও ভাল পদ্ধতি আছে।


সিমুলেটেড অ্যানিলিং এলোমেলো অনুসন্ধানের এক রূপ যা বহু বছর ধরে চলছিল।
মাইকেল চেরনিক 22
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.