গ্রেডিয়েন্ট ভিত্তিক অপ্টিমাইজারকে আনুমানিক গ্রেডিয়েন্ট সরবরাহ করা কি অকেজো?


9

আপনি যদি কেবল একটি সংখ্যাযুক্ত গ্রেডিয়েন্ট সরবরাহ করতে পারেন তবে গ্রেডিয়েন্ট ভিত্তিক অপ্টিমাইজেশন অ্যালগরিদমগুলি ব্যবহার করা কি অর্থহীন? যদি তা না হয় তবে কেন অপ্টিমাইজেশান লাইব্রেরির জন্য সীমাবদ্ধ তাত্পর্যপূর্ণ আচরণ করা তুচ্ছ হলে প্রথমে একটি সংখ্যার গ্রেডিয়েন্ট প্রদান করবেন?

[Edit]

  • কেবল স্পষ্ট করে বলতে গেলে, আমার প্রশ্নটি একটি নির্দিষ্ট প্রয়োগের চেয়ে আরও সাধারণ অর্থে। যদিও আমার প্রয়োগের ক্ষেত্রটি বিভিন্ন পরিসংখ্যান কাঠামোর আওতায় সম্ভাবনা অনুকূলিতকরণ হিসাবে ঘটে।

  • স্বয়ংক্রিয় পার্থক্য নিয়ে আমার সমস্যাটি হ'ল সর্বদা একটি ক্যাচ বলে মনে হয়। হয় AD গ্রন্থাগারটি বাইরের লাইব্রেরি কলগুলিতে (বিএলএএস এর মতো) প্রচার করতে পারে না বা আপনার কর্মপ্রবাহকে এত মারাত্মকভাবে পুনরায় কাজ করতে হবে যে এটি মোকাবেলা করতে ব্যথার কারণ হয়ে পড়ে ... বিশেষত যদি আপনি সংবেদনশীল ভাষা টাইপের সাথে কাজ করছেন। AD এর সাথে আমার গ্রিপগুলি সম্পূর্ণ পৃথক সমস্যা। তবে আমি বিশ্বাস করতে চাই!

  • আমার ধারণা আমার আরও ভালভাবে প্রশ্ন প্রণয়ন করা দরকার তবে আমি এটির একটি খারাপ কাজ করছি। যদি সতর্কীকরণের সাথে ডারাইভেটিভ-মুক্ত অপ্টিমাইজেশন অ্যালগরিদম বা একটি ডেরাইভেটিভ ভিত্তিক অপ্টিমাইজেশন অ্যালগরিদম ব্যবহার করার বিকল্প থাকে তবে আমি কেবল এটির একটি সংখ্যাগত গ্রেডিয়েন্ট দিতে পারি, গড়পড়তাটি কোনটি উন্নততর হবে?


2
আপনি কি জিজ্ঞাসা করার চেষ্টা করছেন যে সীমাবদ্ধ পার্থক্যগুলি ব্যবহার করে কেবল কোনও আনুমানিককে গণনা করার পরিবর্তে কেউ কেন বিশ্লেষণাত্মক গ্রেডিয়েন্ট সরবরাহ করবে?
স্পেকটার

1
আমার প্রশ্নটি অন্যভাবে বলা হয়েছে, ধরুন আপনার সমীকরণগুলি বিশ্লেষণাত্মক গ্রেডিয়েন্টগুলি গণনা করার জন্য খুব জড়িত, গ্রেডিয়েন্ট নির্ভর অপ্টিমাইজেশন অ্যালগরিদমগুলি এখনও গ্রেডিয়েন্টের প্রয়োজন হয় না এমনগুলির তুলনায় উচ্চতর হতে পারে?
অধ্যাপক বিগলসওয়ার্থ

এটি একটি পৃথক প্রশ্ন যা আপনি উপরে উত্থাপন করেছিলেন। আপনি অন্যান্য উপায়ে যেমন সীমাবদ্ধ উপাদান দ্বারা সংখ্যাসূচক ডেরিভেটিভগুলি গণনা করতে সক্ষম হতে পারেন।
নিকোগুয়ারো

1
@nicoguaro হ্যাঁ, আংশিক ডিফারেনশিয়াল সমীকরণের সাথে অপ্টিমাইজেশনের প্রসঙ্গে, অবশ্যই এটি ঘটেছে (এবং এটি আমার গবেষণার ক্ষেত্রগুলির মধ্যে একটি, এটি আমার প্রথম চিন্তাও ছিল)। তবে প্রশ্নটি সেই দিকটিতে কোনও কিছুর উল্লেখ করে না (এবং এই সাধারণতায় আরও কার্যকর I আমি মনে করি)।
ক্রিশ্চান ক্লাসন

1
এছাড়াও, এমনকি এক্ষেত্রেও এটি একটি যুক্তিসঙ্গত প্রশ্ন: যদি আপনার (সিস্টেমের) পিডিই (গুলি) এত জটিল হয় যে আপনি গ্রেডিয়েন্টটি পাওয়ার জন্য সংখ্যাসম্মভাবে সমাধান হওয়ার জন্য একটি স্থগিত সমীকরণটি অর্জন করতে পারবেন না? (এই জিনিসগুলি বেশ কদর্য হতে পারে, বিশেষত যদি মান-অ-সীমানা শর্ত জড়িত থাকে))
ক্রিশ্চান ক্ল্যাসন

উত্তর:


11

ব্রায়ানের দুর্দান্ত উত্তরের পরিপূরক করতে আমাকে কিছুটা (সম্পাদকীয়) ব্যাকগ্রাউন্ড দিন। ডেরাইভেটিভ-মুক্ত অপ্টিমাইজেশন পদ্ধতিগুলি এমন ফাংশন হিসাবে সংজ্ঞায়িত করা হয় যা কেবলমাত্র ফাংশন মূল্যায়নের ব্যবহার করে এবং মূলত "নমুনা গ্রহণযোগ্য সেটটি কম বেশি পদ্ধতিতে প্রয়োগ করে এবং সর্বোত্তম ফাংশন মান সংরক্ষণ করে" - তথ্য প্রদানে আপনি যা করতে পারেন কেবল এটিই। এই পদ্ধতিগুলি মোটামুটিভাবে উপ-বিভক্ত হতে পারে

  1. স্টোকাস্টিক পদ্ধতি , যেখানে নমুনাগুলির নির্বাচন মৌলিকভাবে এলোমেলো (যার অর্থ এলোমেলোতা একটি অত্যন্ত গুরুত্বপূর্ণ উপাদান; অন্যান্য, নির্বাহী উপাদানও থাকতে পারে)। এই পদ্ধতিগুলি প্রায়শই শারীরিক বা জৈবিক প্রক্রিয়া দ্বারা অনুপ্রাণিত হয় এবং "সিমুলেটেড অ্যানিলিং", "জেনেটিক অ্যালগরিদম", বা "কণা জলাবদ্ধতা / অগ্নিনির্বাপক / অ্যান্থিল পদ্ধতি" এর সাথে সম্পর্কিত নাম রয়েছে। "এর বাইরে খুব কমই কোনও রূপান্তর তত্ত্ব আছে" যদি আপনি যথেষ্ট চেষ্টা করেন তবে আপনি সম্ভাব্যতার সাথে সমস্ত পয়েন্ট (মিনিমাইজার সহ) আঘাত করবেন1"(এটি ঘটবে কিনা - কোনও সম্ভাবনার সাথে - মহাবিশ্বের তাপের মৃত্যুর আগে আরেকটি বিষয় ...) একজন গণিতবিদ হিসাবে আমি এই পদ্ধতিগুলি একটি শেষ অবলম্বন হিসাবে বিবেচনা করব: আপনি যদি আপনার সম্পর্কে কিছু না জানেন তবে ফাংশন, আপনি যা করতে পারেন এটি কেবল তাই এবং আপনি ভাগ্যবান হতে পারেন।

  2. নির্ধারিত পদ্ধতি , যেখানে নমুনাগুলির নির্বাচন এলোমেলো নয়, অর্থাত্ পূর্ববর্তী ফাংশন মূল্যায়নের উপর ভিত্তি করে। সর্বাধিক বিখ্যাত উদাহরণ সম্ভবত নেল্ডার - মাংস সিমপ্লেক্স পদ্ধতি; অন্যরা সেট অনুসন্ধান পদ্ধতি তৈরি করছে। এটি উপলব্ধি করা জরুরী যে এটি কেবল তখনই কাজ করতে পারে যদি বিভিন্ন পয়েন্টে ফাংশনের মূল্যের মধ্যে কোনও (শোষণীয়) সম্পর্ক থাকে - যেমন, ফাংশনটির কিছুটা মসৃণতা। প্রকৃতপক্ষে, যেমন নেল্ডার - মাংস পদ্ধতিটির রূপান্তর তত্ত্বটি একটি অ-ইউনিফর্ম তৈরির উপর ভিত্তি করেসিম্পলেক্সের শীর্ষে অবস্থিত ফাংশন মানের উপর ভিত্তি করে গ্রেডিয়েন্টের সীমাবদ্ধ-পার্থক্য আনুমানিক এবং এটি দেখায় যে এটি বিন্দুতে সরল চুক্তি হিসাবে সঠিক গ্রেডিয়েন্ট এবং শূন্য উভয়কেই রূপান্তর করে। (ক মান সসীম-পার্থক্য পড়তা উপর ভিত্তি করে বৈকল্পিক বলা হয় কম্পাস অনুসন্ধান ।)

  3. মডেল-ভিত্তিক পদ্ধতি , যেখানে ফাংশনের মানগুলি ফাংশনের স্থানীয় মডেল তৈরি করতে ব্যবহৃত হয় (উদাহরণস্বরূপ, অন্তরঙ্গকরণ দ্বারা), যা পরে স্ট্যান্ডার্ড (গ্রেডিয়েন্ট- / হেসিয়ান-ভিত্তিক) পদ্ধতিগুলি ব্যবহার করে ছোট করা হয়। যেহেতু একটি সীমাবদ্ধ পার্থক্য আনুমানিকতা বহুবর্ষীয় ইন্টারপোলেন্টের সঠিক ডেরাইভেটিভের সমতুল্য, তাই শাস্ত্রীয় "সংখ্যাগত গ্রেডিয়েন্ট" পদ্ধতিরও এই শ্রেণীর মধ্যে পড়ে।

আপনি দেখতে পাচ্ছেন যে এই শ্রেণীর মধ্যে সীমানাগুলি তরল, এবং প্রায়শই কেবল ব্যাখ্যার বিষয়। তবে নৈতিকতা পরিষ্কার হওয়া উচিত: আপনি যে ফাংশনটি হ্রাস করছেন সে সম্পর্কিত সমস্ত উপলব্ধ তথ্য আপনি ব্যবহার করেছেন তা নিশ্চিত করুন। কর্নেলিয়াস ল্যাঙ্কজোসের উদ্ধৃতি দিতে:

কোনও গাণিতিক কৌশল দ্বারা তথ্যের অভাবে প্রতিকার করা যায় না।

সর্বোপরি, যদি আপনি নিজের ফাংশন সম্পর্কে কিছু না জানেন তবে এটি সম্পূর্ণরূপে এলোমেলো হতে পারে এবং একটি এলোমেলো মূল্য হ্রাস করা বোকামির কাজ ...


17

যদি আপনার উদ্দেশ্যটি মসৃণ হয়, তবে ডেরিভেটিভের সাথে সীমাবদ্ধ পার্থক্য আনুমানিক ব্যবহারগুলি ডেরিভেটিভ ফ্রি অপ্টিমাইজেশন অ্যালগরিদম ব্যবহার করার চেয়ে প্রায়শই কার্যকর। আপনার যদি এমন কোড রয়েছে যা ডেরিভেটিভসকে ঠিক গণনা করে তবে সীমাবদ্ধ পার্থক্যের আনুমানিকতা ব্যবহার না করে সেই কোডটি ব্যবহার করা ভাল।

যদিও কিছু অপ্টিমাইজেশন লাইব্রেরিগুলি ধাপের আকারের প্যারামিটারগুলি নির্ধারণ করতে স্বয়ংক্রিয়ভাবে হিউরিস্টিকস ব্যবহার করে আপনার জন্য সীমাবদ্ধ পার্থক্যের অনুমানগুলি গণনা করবে, তবে আপনার নিজের রুটিনগুলি সসীম পার্থক্যের আনুমানিক গণনা করা আরও ভাল কারণ আপনার যথাযথ পদক্ষেপের মাপ সম্পর্কে আরও ভাল জ্ঞান থাকতে পারে আপনার কোডটি কাজে লাগাতে পারে এমন ফাংশনে বিশেষ কাঠামো।

অন্য একটি বিকল্প যা প্রায়শই মূল্যবান তা হ'ল একটি সাব্রোটিন উত্পাদন করতে স্বয়ংক্রিয় পার্থক্য কৌশল ব্যবহার করা যা উদ্দেশ্যমূলক ফাংশনটি নিজেই গণনার জন্য উত্স কোড থেকে বিশ্লেষণী ডেরিভেটিভগুলি গণনা করে।


3
স্বয়ংক্রিয় পার্থক্যের জন্য +1 । এটি প্রায়শই গ্রেডিয়েন্টের জন্য প্রাক-অগ্রাধিকারের প্রতীকী অভিব্যক্তি বা সীমাবদ্ধ-পার্থক্য আনুমানিকতার তুলনায় অনেক বেশি ভাল।
বাম দিকের বাইরে

আমি স্বয়ংক্রিয় পার্থক্য ব্যবহার করার পরামর্শ দেব। ফরট্রানের জন্য, উত্স পরিবর্তনের উপর ভিত্তি করে ইনরিয়া সোফিয়া-অ্যান্টিপোলিস থেকে ট্যাপেনাদ চেষ্টা করুন। সি / সি ++ এর জন্য অ্যাডল-সি, অ্যাডপেট, স্যাকাদো (ট্রিলিনোসের অংশ) এর মতো আরও পছন্দ রয়েছে। এগুলি সমস্ত অপারেটর ওভারলোডিং এবং সহজে ব্যবহারের উপর ভিত্তি করে তৈরি হয় যদিও খুব বড় সমস্যার জন্য খুব দক্ষ নয়।
সিএফডল্যাব

কিছু পরিস্থিতিতে রয়েছে যেখানে স্বয়ংক্রিয় পার্থক্য (AD) প্রয়োগ করা কঠিন হতে পারে তবে জটিল ধাপের পার্থক্য যা কখনও কখনও AD এর মতো প্রায় একই জিনিস হিসাবেও পরিমাপ করতে পারে (বিপরীত মোড দ্বারা একবারে একটি সম্পূর্ণ গ্রেডিয়েন্ট গণনা করতে সক্ষম হওয়া ব্যতীত) AD এর) প্রযোজ্য এবং তুলনামূলকভাবে সহজ প্রয়োগ করা যেতে পারে।
মার্ক এল স্টোন

পরিবর্তিত প্রশ্নের জবাবে: আপনার উদ্দেশ্যটি যদি মসৃণ হয় (যদি ডেরিভেটিভ ভিত্তিক অপ্টিমাইজেশন অ্যালগরিদম না হয় তবে এটি ব্যবহার করার কোনও অর্থ নেই) এবং যদি ভেরিয়েবলের সংখ্যা যুক্তিসঙ্গতভাবে ছোট হয় (সীমাবদ্ধ পার্থক্য ডেরিভেটিভগুলি PDE সীমাবদ্ধ অপ্টিমাইজেশনে কাজ করে না ), তবে সম্ভবত আপনি ডিএফও কৌশলটি ব্যবহার না করে সীমাবদ্ধ পার্থক্য আনুমানিকতার সাথে ডেরাইভেটিভ ভিত্তিক অনুকূলকরণ পদ্ধতি ব্যবহার করা থেকে ভাল।
ব্রায়ান বোর্চারস

4

আপনার প্রশ্ন গ্রেডিয়েন্ট-ভিত্তিক অপ্টিমাইজার সম্পর্কে জিজ্ঞাসা করে, তাই আমি মনে করি ব্রায়ান ঠিক তখনই ছিল। আমি কেবল ভাগ করে নেব, যেহেতু আমি বর্তমানে নিজের সাথে লড়াই করছি, কয়েকটি বিষয়।

সীমাবদ্ধ পার্থক্য সহ সমস্যাগুলি হ'ল 1) পারফরম্যান্স, কারণ আপনাকে প্রতিটি মাত্রার জন্য আবার ফাংশনটি পুনরায় মূল্যায়ন করতে হবে এবং 2) একটি ভাল পদক্ষেপের আকার চয়ন করা জটিল can পদক্ষেপটি যদি খুব বড় হয় তবে ফাংশনের লিনিয়ারির ধারণা ধরে রাখতে পারে না। যদি পদক্ষেপটি খুব ছোট হয় তবে এটি নিজেই ফাংশনটিতে শব্দ করতে পারে কারণ ডেরিভেটিভগুলি শব্দকে প্রশস্ত করে। যদি ফাংশনটিতে ডিফারেনশিয়াল সমীকরণগুলি সমাধান করা জড়িত তবে একটি আসল সমস্যা হতে পারে। যদি বিশ্লেষণাত্মকভাবে গ্রেডিয়েন্টগুলি গণনা করা বা সংবেদনশীলতা সমীকরণগুলি ব্যবহার করা সম্ভব হয় তবে এটি অবশ্যই আরও নির্ভুল এবং সম্ভবত দ্রুত হবে।

এর মধ্যে আরও একটি পদ্ধতি রয়েছে যা আপনি চেষ্টা করতে পারেন যদি আপনি ইতিমধ্যে সফ্টওয়্যারটিতে খুব বেশি সময় বিনিয়োগ না করে থাকেন, এবং তা হল জটিল গাণিতিক দিয়ে এটি চালানো। একে জটিল পদক্ষেপের পার্থক্য বলা হয় । মৌলিক ধারণা যখন আপনি ফাংশন নির্ণয়, যদি আপনি প্যারামিটার এক্স সম্মান সঙ্গে তার গ্রেডিয়েন্ট চান, আপনি একটি খুব অল্প সংখ্যক X এর কাল্পনিক অংশ সেট EPS । আপনি গণনা করার পরে, ফাংশনটির মূল্যের কল্পিত অংশটি, ইপ্স দ্বারা বিভক্ত , এক্স এর সাথে সম্মানের সাথে গ্রেডিয়েন্ট হয় When কি এটি সম্পর্কে আকর্ষণীয় যে epsখুব ছোট করা যেতে পারে। এটি কাজ করার কারণটি হ'ল ডিফারেনশিয়াল ক্যালকুলাসের সাধারণ নিয়মগুলি জটিল গাণিতিকের নিয়মে যথাযথভাবে মিরর করা হয়।

এটি বলেছিল, আমি এটিকে একটি পেনেসিয়া হিসাবে বিবেচনা করি না , কারণ জটিল গাণিতিক ক্ষেত্রে কোনও জটিল কাজ করা সবসময় সহজ নয়, গ্রেডিয়েন্টকে বিশ্লেষণ করে গণনা করা যায় তবে এটি মূল্যবান নয় এবং ডিফারেনশিয়াল সমীকরণের ক্ষেত্রে এটি সংবেদনশীলতা সমীকরণের ঠিক সমতুল্য , যা আমি প্রয়োজনীয় হিসাবে করছি।


আমি মনে করি যে অন্যতম প্রধান সুবিধা হ'ল এই জটিল সসীম পার্থক্য সূত্রে আপনি কোনও বিয়োগফল করছেন না। আমি যখন কিছুক্ষণ আগে এই পদ্ধতির ডেরাইভেশন সম্পর্কে কথা বলার সময় একটি কাগজ পড়েছিলাম তখন এটি ছিল এমন একটি পয়েন্ট যা তারা মনে করেছিল যে অন্যান্য সীমাবদ্ধ পার্থক সূত্রের তুলনায় পরীক্ষামূলকভাবে বৈধতা দেওয়া হয়েছিল। এই পার্থক্যটি রাউন্ড-অফ ত্রুটিগুলি সমস্যা হওয়ার আগে ছোট ধাপের মাপগুলি চয়ন করার অনুমতি দেয়।
স্পেক্টর

@ চ্যাওয়ার্ড: ঠিক আছে। এটি সম্পর্কে এটি কি সুন্দর। আমি যদিও সন্দেহ ছিল। আমার কয়েকজন সহকর্মী মনে হয়েছিল এটি একটি যাদু বুলেট। আমার সন্দেহ হয়েছিল যে এটি সংবেদনশীলতা সমীকরণের সমতুল্য এবং আমার একজন সহকর্মী, একজন প্রয়োগিত গণিতবিদ, এটি প্রমাণ করেছেন।
মাইক ডুনলাভে

সংবেদনশীলতা সমীকরণ সম্পর্কে এটি দুর্দান্ত। এটি একটি আকর্ষণীয় পদ্ধতির তবে এটি অবশ্যই কার্যকরভাবে কার্যকর করতে পারে। ধরে নিই যে আপনি এটি ব্যবহার করতে চান, আপনাকে আপনার ফাংশনের জটিল সংস্করণগুলি নির্ধারণ করতে হবে এবং তারপরে অতিরিক্ত জটিল ভেরিয়েবল বীজগণিত / গণনাগুলি করতে হবে, যা প্রতিটি ফাংশনকে মূল্যায়ন দীর্ঘায়িত করে। ধীর ফাংশন মূল্যায়ন যুক্ত হওয়া ডেরাইভেটিভ যথার্থতার জন্য মূল্যবান কিনা সেগুলির মধ্যে এটিগুলির মধ্যে একটি।
স্পেক্ট

@ চ্যাওয়ার্ড: এটাই আমি পৌঁছেছি যে উপসংহারে আমরা সাধারণত একটি ভেক্টরকে অপ্টিমাইজ করি যার অর্থ পুনরাবৃত্তিযোগ্য মূল্যায়ন। অবশ্যই, বিকল্পটি হ'ল সংবেদনশীলতা সমীকরণগুলি উদ্ভাবন করা জটিল। আমি প্রতীকী পার্থক্য ব্যবহার করি এবং সেগুলি এখনও জটিল। পুরো বিষয়টি আমার কিছুটা ক্ষেত্র।
মাইক ডুনলাভে
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.