এল-বিএফজিএস কীভাবে কাজ করে?


15

কাগজটির উদ্দেশ্য হ'ল নিয়মিত লগ-সম্ভাবনা সর্বাধিক করে কিছু পরামিতি অনুকূল করা। তারপরে তারা আংশিক ডেরিভেটিভস গণনা করে। এবং তারপরে লেখকরা উল্লেখ করেছেন যে তারা এল-বিএফজিএস ব্যবহার করে সমীকরণটি অপ্টিমাইজ করে, অনেকগুলি ভেরিয়েবলের মসৃণ ফাংশনগুলি অপ্টিমাইজ করার জন্য একটি প্রমিত নিউটোন প্রক্রিয়া (কোনও বিবরণ নেই)।

এটা কিভাবে কাজ করে ?


3
কি কাগজ? কাগজের লিঙ্কে রাখুন একটি প্রসঙ্গে প্রয়োজন। সংক্ষিপ্তসার লিঙ্কগুলিতে রাখুন, যেমন এল-বিএফজিএস এবং এগুলি বানান: এল-বিএফজিএস = সীমাবদ্ধ মেমরি ব্রোইডেন – ফ্লেচার – গোল্ডফার্ব – শ্যানো (বিএফজিএস) অ্যালগোরিদম
কার্ল

1
en.wikedia.org/wiki/Limited- মেমরি_বিএফজিএস অনেকগুলি প্রকরণ রয়েছে, যা ক্ষমতা এবং কার্যক্ষমতাতে ব্যাপকভাবে পৃথক হতে পারে।
মার্ক এল স্টোন

হাই, ধন্যবাদ মিঃ মার্ক :) আমি একবার দেখে নেব। কাগজটি cs.stanford.edu/people/jure/pubs/circles-tkdd14.pdf (সমীকরণ 6 অপ্টিমাইজেশন)
আবির

মূলত এল-বিএফজিএসকে লক্ষ্যগত ফাংশনের মান এবং উদ্দেশ্যগত ফাংশনের গ্রেডিয়েন্টকে ব্যবহার করে একটি উদ্দেশ্যগত কার্যের ন্যূনতম (স্থানীয়) সন্ধানের উপায় হিসাবে ভাবেন। এই স্তরের বিবরণে যদিও এল-বিএফজিএস ছাড়াও অনেকগুলি অপ্টিমাইজেশন পদ্ধতি রয়েছে। আপনি এটি সম্পর্কে আরও জানতে springer.com/us/book/9780387303031 এর 7.2 বিভাগে পড়তে পারেন ।
মার্ক এল স্টোন

1
বিএফজিএস হ'ল সেকেন্ড পদ্ধতিটির মাধ্যমে দ্বিতীয় অর্ডার পদ্ধতি (নিউটন) নকল করার জন্য প্রথম অর্ডার পদ্ধতি পাওয়ার চেষ্টা করার একটি উপায়
ইউজার 795305

উত্তর:


28

মূলত এল-বিএফজিএসকে লক্ষ্যগত ফাংশনের মান এবং উদ্দেশ্যগত ফাংশনের গ্রেডিয়েন্টকে ব্যবহার করে একটি উদ্দেশ্যগত কার্যের ন্যূনতম (স্থানীয়) সন্ধানের উপায় হিসাবে ভাবেন। এই স্তরের বিবরণে যদিও এল-বিএফজিএস ছাড়াও অনেকগুলি অপ্টিমাইজেশন পদ্ধতি রয়েছে। আপনি এ সম্পর্কে নোডেসাল এবং রাইট "সংখ্যাগত অপ্টিমাইজেশন, দ্বিতীয় সংস্করণ" এর http://www.springer.com/us/book/9780387303031 বিভাগের 7.2 বিভাগে আরও পড়তে পারেন । এল-বিএফজিএস-এর একটি অত্যন্ত কার্সারি আলোচনা https://en.wikedia.org/wiki/Limited-memory_BFGS এ সরবরাহ করা হয়েছে ।

প্রথম অর্ডার পদ্ধতির অর্থ গ্রেডিয়েন্টস (প্রথম ডেরিভেটিভস) (এবং সম্ভবত উদ্দেশ্যমূলক ফাংশন মান) ব্যবহৃত হয় তবে হেসিয়ান নয় (দ্বিতীয় ডেরিভেটিভস)। উদাহরণস্বরূপ, গ্রেডিয়েন্ট বংশোদ্ভূত এবং আরও অনেকের মধ্যে খাড়া বংশদ্ভুত কথা চিন্তা করুন।

দ্বিতীয় ক্রম পদ্ধতির অর্থ গ্রেডিয়েন্টস এবং হেসিয়ান ব্যবহৃত হয় (এবং সম্ভবত উদ্দেশ্যমূলক ফাংশন মান)। দ্বিতীয় ক্রমের পদ্ধতিগুলি ভিত্তিতে তৈরি করা যেতে পারে

  1. "অবিকল" হেসিয়ান ম্যাট্রিক্স (বা গ্রেডিয়েন্টের সীমাবদ্ধ পার্থক্য), এক্ষেত্রে তারা নিউটন পদ্ধতি হিসাবে পরিচিত বা

  2. কোয়াসি-নিউটন পদ্ধতিগুলি, যা বেশিরভাগ পুনরাবৃত্তির উপর গ্রেডিয়েন্টের পার্থক্যের ভিত্তিতে হেসিয়ান প্রায় "সেকান্ট" (কোয়াসি-নিউটন) শর্ত আরোপ করে ian কাসি-নিউটনের বিভিন্ন পদ্ধতি রয়েছে, যা হেসিয়ানকে বিভিন্ন উপায়ে অনুমান করে। সর্বাধিক জনপ্রিয় একটি হ'ল বিএফজিএস। বিএফজিএস হেসিয়ান আনুমানিকতা হয় গ্রেডিয়েন্টগুলির সম্পূর্ণ ইতিহাসের উপর ভিত্তি করে তৈরি হতে পারে, এ ক্ষেত্রে এটি বিএফজিএস হিসাবে উল্লেখ করা হয়, বা এটি কেবলমাত্র সাম্প্রতিক এম গ্রেডিয়েন্টগুলির উপর ভিত্তি করে তৈরি করা যেতে পারে, এটি ক্ষেত্রে সংক্ষিপ্ত আকারে এটি সীমিত মেমরি বিএফজিএস হিসাবে পরিচিত এল-বিএফজিএস হিসাবে এল-বিএফজিএসের সুবিধাটি হ'ল কেবল সাম্প্রতিকতম এম গ্রেডিয়েন্টগুলি ধরে রাখা দরকার, যেখানে এম সাধারণত 10 থেকে 20 এর কাছাকাছি থাকে, যা পুরো সংরক্ষণের জন্য প্রয়োজনীয় এন * (এন + 1) / 2 উপাদানের তুলনায় অনেক ছোট স্টোরেজ প্রয়োজন বিএফজিএসের সাথে প্রয়োজনীয় হেসিয়ান অনুমানের (ত্রিভুজ), যেখানে এন সমস্যাটির মাত্রা। বিএফজিএস (সম্পূর্ণ) বিপরীতে, হেসিয়ানটির প্রাক্কলনটি কখনই স্পষ্টভাবে এল-বিএফজিএসে গঠিত বা সংরক্ষণ করা হয় না (যদিও বিএফজিএসের কিছু বাস্তবায়ন কেবল হেসিয়ান সান্নিধ্যের পরিবর্তে চয়েলেস্কি ফ্যাক্টর গঠন করে এবং আপডেট করে); বরং হেসিয়ান অনুমানের সাথে যে গণনাগুলির প্রয়োজন হবে তা সুস্পষ্টভাবে গঠন না করেই সম্পন্ন হয়। L-BFGS BFGS এর পরিবর্তে খুব বড় সমস্যার জন্য ব্যবহৃত হয় (যখন এন খুব বড় থাকে) তবে BFGS এর পাশাপাশি পারফরম্যান্স নাও করতে পারে। সুতরাং, যখন বিএফজিএসের মেমরির প্রয়োজনীয়তাগুলি পূরণ করা যায় তখন এল-বিএফজিএসের চেয়ে বিএফজিএসকে অগ্রাধিকার দেওয়া হয়। অন্যদিকে, এল-বিএফজিএস বিএফজিএসের চেয়ে পারফরম্যান্সে খুব খারাপ হতে পারে না। হেসিয়ানটির প্রাক্কলনটি কখনই স্পষ্টভাবে এল-বিএফজিএসে গঠিত বা সংরক্ষণ করা হয় না (যদিও বিএফজিএসের কিছু বাস্তবায়ন কেবল হেসিয়ান সান্নিধ্যের চেয়ে চেসেলস্কি ফ্যাক্টর গঠন করে এবং আপডেট করে); বরং হেসিয়ান অনুমানের সাথে যে গণনাগুলির প্রয়োজন হবে তা সুস্পষ্টভাবে গঠন না করেই সম্পন্ন হয়। L-BFGS BFGS এর পরিবর্তে খুব বড় সমস্যার জন্য ব্যবহৃত হয় (যখন এন খুব বড় থাকে) তবে BFGS এর পাশাপাশি পারফরম্যান্স নাও করতে পারে। সুতরাং, যখন বিএফজিএসের মেমরির প্রয়োজনীয়তাগুলি পূরণ করা যায় তখন এল-বিএফজিএসের চেয়ে বিএফজিএসকে অগ্রাধিকার দেওয়া হয়। অন্যদিকে, এল-বিএফজিএস বিএফজিএসের চেয়ে পারফরম্যান্সে খুব খারাপ হতে পারে না। হেসিয়ানটির প্রাক্কলনটি কখনই স্পষ্টভাবে এল-বিএফজিএসে গঠিত বা সংরক্ষণ করা হয় না (যদিও বিএফজিএসের কিছু বাস্তবায়ন কেবল হেসিয়ান সান্নিধ্যের চেয়ে চেলস্কি ফ্যাক্টরকেই গঠন করে এবং আপডেট করে); বরং হেসিয়ান অনুমানের সাথে যে গণনাগুলির প্রয়োজন হবে তা সুস্পষ্টভাবে গঠন না করেই সম্পন্ন হয়। L-BFGS BFGS এর পরিবর্তে খুব বড় সমস্যার জন্য ব্যবহৃত হয় (যখন এন খুব বড় থাকে) তবে BFGS এর পাশাপাশি পারফরম্যান্স নাও করতে পারে। সুতরাং, যখন বিএফজিএসের মেমরির প্রয়োজনীয়তাগুলি পূরণ করা যায় তখন এল-বিএফজিএসের চেয়ে বিএফজিএসকে অগ্রাধিকার দেওয়া হয়। অন্যদিকে, এল-বিএফজিএস বিএফজিএসের চেয়ে পারফরম্যান্সে খুব খারাপ হতে পারে না। হেসিয়ান অনুমানের সাথে যে গণনাগুলির প্রয়োজন হবে তা স্পষ্টভাবে এটি তৈরি না করেই সম্পন্ন হয়। L-BFGS BFGS এর পরিবর্তে খুব বড় সমস্যার জন্য ব্যবহৃত হয় (যখন এন খুব বড় থাকে) তবে BFGS এর পাশাপাশি পারফরম্যান্স নাও করতে পারে। সুতরাং, যখন বিএফজিএসের মেমরির প্রয়োজনীয়তাগুলি পূরণ করা যায় তখন এল-বিএফজিএসের চেয়ে বিএফজিএসকে অগ্রাধিকার দেওয়া হয়। অন্যদিকে, এল-বিএফজিএস বিএফজিএসের চেয়ে পারফরম্যান্সে খুব খারাপ হতে পারে না। হেসিয়ান অনুমানের সাথে যে গণনাগুলির প্রয়োজন হবে তা স্পষ্টভাবে এটি তৈরি না করেই সম্পন্ন হয়। L-BFGS BFGS এর পরিবর্তে খুব বড় সমস্যার জন্য ব্যবহৃত হয় (যখন এন খুব বড় থাকে) তবে BFGS এর পাশাপাশি পারফরম্যান্স নাও করতে পারে। সুতরাং, যখন বিএফজিএসের মেমরির প্রয়োজনীয়তাগুলি পূরণ করা যায় তখন এল-বিএফজিএসের চেয়ে বিএফজিএসকে অগ্রাধিকার দেওয়া হয়। অন্যদিকে, এল-বিএফজিএস বিএফজিএসের চেয়ে পারফরম্যান্সে খুব খারাপ হতে পারে না।

এমনকি বর্ণনার এই স্তরেও অনেকগুলি রূপ রয়েছে। উদাহরণস্বরূপ, পদ্ধতিগুলি সম্পূর্ণরূপে অনিরাপদযুক্ত হতে পারে, যার ক্ষেত্রে কিছু ঘটে এবং তারা উত্তেজনার সমস্যার পরেও কোনও কিছুতে রূপান্তর করতে পারে না। অথবা তাদের রক্ষা করা যেতে পারে। সুরক্ষিত পদ্ধতিগুলি সাধারণত আস্থার অঞ্চল বা লাইন অনুসন্ধানের উপর ভিত্তি করে থাকে এবং এটি কোনও কিছুর সাথে রূপান্তর নিশ্চিত করতে বোঝানো হয়। খুব গুরুত্বপূর্ণ, কেবল একটি পদ্ধতিটি L-BFGS তা জেনে নিজেই আপনাকে জানাতে পারে না যে কোন ধরণের সুরক্ষা ব্যবহার করা হয়, যদি থাকে তবে any এটি একধরণের বলার মতো যে গাড়িটি 4-দরজার সেডান is তবে অবশ্যই 4-দরজার সমস্ত সেডান কার্য সম্পাদন বা বিশ্বাসযোগ্যতার ক্ষেত্রে এক নয়। এটি একটি অপ্টিমাইজেশন অ্যালগরিদমের কেবল একটি বৈশিষ্ট্য।


1
হাই মার্ক, আমার আবার আপনার সাহায্য দরকার, আপনি কি আমাকে নিউটন এবং কাজী নিউটন পদ্ধতির মধ্যে সংক্ষিপ্ত পার্থক্য বলতে পারবেন ?? ধন্যবাদ
আবির

3
নিউটনের পদ্ধতিগুলি অ্যালগোরিদমের প্রতিটি পুনরাবৃত্তিতে হ্যাশিয়ান ম্যাট্রিক্সকে "স্ক্র্যাচ দ্বারা" গণনা করে ঠিক হয়, বা সেই পুনরাবৃত্তিতে গ্রেডিয়েন্টের সীমাবদ্ধ-পার্থক্য দ্বারা .. কোয়াসি-নিউটন পদ্ধতিগুলি ব্যবহার করে হেসিয়ান ম্যাট্রিক্সের একটি সান্নিধ্য তৈরি করে পুনরাবৃত্তি জুড়ে গ্রেডিয়েন্ট পার্থক্য। এটি করার বিভিন্ন উপায় রয়েছে, বিএফজিএস, ডিএফপি, এসআর 1 এবং অন্যান্যগুলির মতো বিভিন্ন ধরণের কুইসি-নিউটন পদ্ধতির জন্ম দেয়। সাধারণত নিউটন পদ্ধতিগুলিতে হেসিয়ান গণনা করার জন্য প্রতিটি পুনরাবৃত্তিতে প্রচুর পরিমাণে কমপিউটিং প্রয়োজন হয়, কোয়াসি-নিউটন পদ্ধতির তুলনায় পুনরাবৃত্তিতে অনেক বেশি কম্পিউটিং।
মার্ক এল স্টোন
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.