সংখ্যাগত অপ্টিমাইজেশনের জন্য তৃতীয় ডেরাইভেটিভ ব্যবহার করবেন না কেন?


29

যদি হেসিয়ানরা অপ্টিমাইজেশনের জন্য খুব ভাল হয় (উদাহরণস্বরূপ নিউটনের পদ্ধতিটি দেখুন ) তবে কেন সেখানে থামবেন? আসুন তৃতীয়, চতুর্থ, পঞ্চম এবং ষষ্ঠ ডেরিভেটিভ ব্যবহার করি? কেন না?


11
আপনি যখন সর্বোত্তমটি খুঁজে পান, কেন আরও তাকাবেন? আসলেই আপনি কী জিজ্ঞাসা করার চেষ্টা করছেন? আপনার পরিসংখ্যান প্রশ্ন কি?
whuber

2
অনেক ক্ষেত্রে, অনুমানের সীমাবদ্ধ বিতরণ যা সর্বোত্তম অনুমানের সমীকরণগুলি সমাধান করে বা উদ্দেশ্যমূলক কার্যগুলি হ্রাস করে তা যৌথভাবে স্বাভাবিক, তাই তাদের প্রথম এবং দ্বিতীয় মুহুর্তগুলি তাদের পুরোপুরি বৈশিষ্ট্যযুক্ত হতে পারে।
অ্যাডমো

3
আপনি যদি কিছু করতে পারেন তবে তার অর্থ এই নয় যে আপনার এটি করা উচিত । উচ্চতর অর্ডার ডেরাইভেটিভস ক্রমবর্ধমান শব্দে সংবেদনশীল।
ভ্লাদিস্লাভস ডভগ্লেলেকস

6
আমি এই প্রশ্নটিকে অফ-টপিক হিসাবে বন্ধ করতে ভোট দিচ্ছি কারণ এটি পরিসংখ্যান সম্পর্কিত নয়। এটি সংখ্যাগত অপ্টিমাইজেশনের বিষয়ে
আকসকল

11
আপনি একটি বৈজ্ঞানিক অগ্রগতি করেন নি। হ্যালি আপনাকে প্রায় 3 1/4 সেঞ্চুরির মাধ্যমে পরাজিত করেছে। হ্যালি, ই।, 1694, "সাধারণত কোনও সমীকরণের শিকড় খুঁজে বের করার একটি নতুন, সঠিক এবং সহজ পদ্ধতি এবং কোনও পূর্ববর্তী হ্রাস ছাড়াই" ফিলোস। ট্রান্স। রায়। SOC। লন্ডন, 18, 136-145। অপ্টিমাইজেশনের জন্য তৃতীয় ডেরাইভেটিভ পদ্ধতিগুলি বহু বছর ধরে বিদ্যমান এবং অধ্যয়ন করা হয়েছে, তবে দুর্দান্ত জনপ্রিয়তা অর্জন করতে পারেনি। যদি ভালভাবে প্রয়োগ করা হয় তবে তাদের সবচেয়ে বড় সুবিধা হ'ল দৃ vs়তা বনাম একটি ভালভাবে প্রয়োগ করা নিউটনের পদ্ধতিতে বৃদ্ধি হতে পারে। এটি নস্টিস্ট সমস্যাগুলির জন্য সুবিধাজনক হতে পারে।
মার্ক এল স্টোন

উত্তর:


31

আমি এই প্রশ্নের ব্যাখ্যা দিচ্ছি যে "নিউটনের পদ্ধতিটি কেবল তৃতীয় বা উচ্চতর ডেরাইভেটিভ নয়, কেবল প্রথম এবং দ্বিতীয় ডেরিভেটিভ ব্যবহার করে?"

আসলে, অনেক ক্ষেত্রে তৃতীয় ডেরিভেটিভে যাওয়া সাহায্য করে; আমি এটি কাস্টম স্টাফ দিয়ে আগে করেছি। তবে, সাধারণভাবে, উচ্চতর ডেরিভেটিভগুলিতে যাওয়া গণনা সংক্রান্ত জটিলতা যোগ করে - আপনাকে সেই সমস্ত ডেরাইভেটিভগুলি খুঁজে বের করতে হবে এবং গণনা করতে হবে, এবং বহুবিধ সমস্যার জন্য, প্রথম ডেরাইভেটিভগুলির চেয়ে অনেক বেশি তৃতীয় ডেরিভেটিভ রয়েছে! - এটি যদি আপনার প্রাপ্ত পদক্ষেপের পরিমাণের তুলনায় অনেক বেশি পরিমাণে ছাড়িয়ে যায়। উদাহরণস্বরূপ, যদি আমার ত্রি-মাত্রিক সমস্যা থাকে তবে আমার কাছে 3 টি প্রথম ডেরিভেটিভস, 6 দ্বিতীয় ডেরিভেটিভস এবং 10 তৃতীয় ডেরিভেটিভ রয়েছে, সুতরাং তৃতীয়-ক্রমের সংস্করণে গিয়ে আমার যে মূল্যায়ন করতে হবে তার দ্বিগুণের চেয়েও বেশি (9 থেকে 19), একবার আমি এই মূল্যায়নগুলি সম্পন্ন করার পরে পদক্ষেপের দিক / আকার নির্ধারণের বর্ধিত জটিলতার কথা উল্লেখ না করে, তবে অবশ্যই আমি অর্ধেক পদক্ষেপগুলি গ্রহণ করতে পারি না।

এখন, ভেরিয়েবলগুলির সাথে সাধারণ ক্ষেত্রে , এন টি এইচ আংশিক ডেরিভেটিভসের সংখ্যার সংখ্যা হবে ( কে + এন - 1knth, সুতরাং পাঁচটি ভেরিয়েবলের সমস্যার জন্য, তৃতীয়, চতুর্থ এবং পঞ্চম আংশিক ডেরিভেটিভসের মোট সংখ্যা 231 সমান হবে, প্রথম এবং দ্বিতীয় আংশিক ডেরিভেটিভ (20) এর সংখ্যার চেয়ে 10 গুণ বেশি বৃদ্ধি হবে। আপনার অতিরিক্ত গুনগত বোঝা বহন করতে পুনরাবৃত্তি গণনাগুলিতে বড় পরিমাণে হ্রাস দেখতে ভেরিয়েবলের একটি পঞ্চম-আদেশের বহুপদী খুব কাছেই আপনার একটি সমস্যা থাকতে হবে।(k+n1k1)


3
আপনি কীভাবে উচ্চতর ডেরাইভেটিভ ব্যবহার করছেন তা আপনি ব্যাখ্যা করতে পারেন?
হোবল

5
@ হুবুহু ওপি যা উল্লেখ করছে, তা অত্যন্ত অস্পষ্টভাবে আমাকে স্বীকার করতে হবে, এটি অপ্টিমাইজেশনের ক্ষেত্রে নিউটনের পদ্ধতি। প্রশ্নটি আসলেই "কেন নিউটনের পদ্ধতিটি কেবল প্রথম এবং দ্বিতীয় ডেরিভেটিভ ব্যবহার করে, তৃতীয় বা উচ্চতর ডেরিভেটিভস নয়?"। এটি অফ-টপিকের পাশাপাশি তিনি কী জিজ্ঞাসা করছেন তা অস্পষ্ট, তবে আমি ভেবেছিলাম যে আমি কোনও কারণ বা অন্য কারণে বন্ধ করার জন্য ভোটের চেয়ে উত্তর দেব।
jboman

4
+1 আমি মনে করি এটি একটি ভাল উত্তর, তবে টেলর সম্প্রসারণের ভিত্তিতে আপনি কী করছেন তা দেখিয়ে এটি উন্নত করা যেতে পারে।
ম্যাথু

8
আমার একজন অধ্যাপক হিসাবে - একজন খুব সফল পরামর্শদাতাও একবার আমাদের বলেছিলেন, "আপনি যখনই মনে করেন যে কীভাবে আরও উন্নততর মাউসট্র্যাপ তৈরি করবেন তা বুঝতে চেষ্টা করুন যে 1000 জন যারা ঠিক একই ধারণাটি নিয়ে এসেছিল কেন? আপনি এটি বাজারে না রাখার আগে। " নিউটন ব্যবহারের পুরো বিষয়টি হ'ল গণনা সংরক্ষণ করা - অন্যথায়, আমরা কেবল বিস্তৃত অনুসন্ধান করব। আমি আপনাকে আশ্বাস দিচ্ছি, 3 ত্রিমাত্রিক সমস্যাটিতে তৃতীয় ডেরাইভেটিভ যুক্ত করা খুব কমই প্রতিটি পদক্ষেপে গুনের দ্বিগুণের জন্য খুব কম অর্থ প্রদান করবে যদি না এই ফাংশনটি is কিউবিক হয়।
jbowman

9
না, এটি নয় - এটি প্রথম প্রদর্শিত হওয়ার চেয়ে একটু গভীর মন্তব্য। বিষয়টি দ্বিগুণ - বেশিরভাগ ধারণাগুলি যা প্রথমে ভাল প্রদর্শিত হয় না, কারণগুলির জন্য এটি একেবারে সুস্পষ্ট নাও হতে পারে, এবং একটি বিরতির আসল কীটি ধারণাটি নিজেই নাও হতে পারে যা কিছুটা ত্রুটি কাটিয়ে ওঠে বা কাজ করে works বুদ্ধিটা. এই যুক্তি, বাস্তবে, এটি নির্দেশ করে এবং আপনাকে ধারণার দুর্বলতাগুলি অনুসন্ধান করতে বলে। এটি হাল ছেড়ে দেওয়ার কথা নয়, এটি জিনিসগুলির মধ্য দিয়ে চিন্তা করা এবং এটির দিকে সমালোচনা করা উচিত।
jboman

22

এই প্রশ্নের পরিসংখ্যানগত দিকটি আমি আসলে দেখছি না, তাই আমি অপ্টিমাইজেশনের অংশটি উত্তর দেব।

একীকরণের জন্য 2 টি অংশ রয়েছে: পুনরাবৃত্তির ব্যয় এবং পুনরাবৃত্তির গণনা

এখানে খুব সুন্দর প্রতিটি উত্তর কেবল পুনরাবৃত্তির ব্যয়কে কেন্দ্র করে এবং পুনরাবৃত্তির গণনা উপেক্ষা করছে । তবে দুজনেরই ব্যাপার। এমন একটি পদ্ধতি যা 1 ন্যানোসেকেন্ডে পুনরাবৃত্তি করে তবে রূপান্তর করতে পুনরাবৃত্তি লাগে যা আপনার কোনও ভাল করবে না। এবং এটির পুনরুক্তি ব্যয়টি যতই সস্তা হোক না কেন, এমন পদ্ধতি এমনভাবে কার্যকর হয় না যেগুলি কার্যকর হয়।1020

আসুন কী ঘটছে তা নির্ধারণ করুন।

সুতরাং: কেন> ২ য়-অর্ডার ডেরিভেটিভস ব্যবহার করবেন না?

আংশিক কারণ (এবং এটি ২ য়-অর্ডারের পক্ষেও সত্য, তবে এটিতে আরও কিছু):

উচ্চতর-অর্ডার পদ্ধতিগুলি কেবলমাত্র সর্বোত্তম কাছাকাছি হলে দ্রুত রূপান্তরিত হয় ।

অন্যদিকে, তারা সর্বোত্তম থেকে দূরে থাকলে তারা আরও সহজেই উড়ে যায় !

(অবশ্যই, এটি সর্বদা সত্য নয়; উদাহরণস্বরূপ, নিউটনের পদ্ধতির সাথে একটি চতুর্ভুজ এক ধাপে রূপান্তরিত করবে But তবে বাস্তব বিশ্বে যেগুলি ভাল সম্পত্তি নেই তার স্বেচ্ছাসেবী কার্যক্রমে, এটি সাধারণত সত্য))

এর মানে হল যখন আপনি অধিকতর সর্বোত্তম থেকে দূরে আছে, আপনি সাধারণত চান পদ্ধতি: একটি কম-অর্ডার (প্রথম-অর্ডার পড়ুন)। আপনি যখনই কাছাকাছি থাকবেন কেবল তখনই আপনি পদ্ধতির ক্রমটি বাড়িয়ে দিতে চান।

সুতরাং কেন যখন আপনি 2nd নির্দেশ মতো স্টপ কাছাকাছি রুট?

কারণ "চতুষ্কোণ" রূপান্তর আচরণটি আসলেই "যথেষ্ট ভাল"!

কেন তা দেখতে, আপনাকে প্রথমে বুঝতে হবে "চতুর্ভুজ রূপান্তর" এর অর্থ কী

গাণিতিকভাবে, দ্বিঘাত অভিসৃতি মানে যদি, পুনরাবৃত্তির আপনার ত্রুটি , তারপর নিম্নলিখিত অবশেষে কিছু ধ্রুবক জন্য কথা সত্য :ϵkkc

|ϵk+1|c |ϵk|2

সরল ইংরেজিতে এর অর্থ হ'ল, একবার আপনি সর্বোত্তম (গুরুত্বপূর্ণ!) এর কাছাকাছি পৌঁছে গেলে প্রতিটি অতিরিক্ত পদক্ষেপ নির্ভুলতার অঙ্কের সংখ্যা দ্বিগুণ করে

c=1|ϵ1|=0.1|ϵ2|0.01|ϵ3|0.0001

২ য় অর্ডারের চেয়ে ১ ম অর্ডারে থামবেন না কেন?

ϵk=0.9999999|ϵ|<0.5

এই মুহুর্তে, আপনি যদি কোনও কম্পিউটার বিজ্ঞান জানেন তবে আপনি বুঝতে পারেন যে ২ য়-অর্ডার কনভার্জেন্সের মাধ্যমে সমস্যাটি ইতিমধ্যে সমাধান হয়ে গেছে । আপনি যদি দেখতে না পান কেন, এখানে কেন: প্রতিটি পুনরাবৃত্তিকে দ্বিগুণ করার পরিবর্তে তিন সংখ্যার চেয়ে তিন অঙ্কের সংখ্যা অর্জনের ব্যবহারিক কিছুই নেই you এটি আপনাকে কেনাচ্ছে ? সর্বোপরি, একটি কম্পিউটারে, এমনকি একটি পূর্বনির্ধারণের সংখ্যাটিতে 52 বিট রয়েছে যথার্থতা, যা প্রায় 16 দশমিক অঙ্কের। হতে পারে এটি আপনার 16 থেকে 3 পদক্ষেপের প্রয়োজনীয়তা হ্রাস করবে ... যা দুর্দান্ত শোনায়, যতক্ষণ না আপনি উপলব্ধি করেন যে এটি প্রতিটি পুনরাবৃত্তির তৃতীয় ডেরিভেটিভগুলি গণনা করার মূল্যে আসে , এটিই যেখানে মাত্রিকতার অভিশাপdouble6656

তবে আবার: মনে রাখুন মাত্রিকতার অভিশাপ অর্ধেক গল্প

অন্য অর্ধেকটি হ'ল আপনি সর্বোত্তম থেকে দূরে থাকাকালীন আপনি সাধারণত খারাপ আচরণ পান যা সাধারণত আপনার করা পুনরাবৃত্তির সংখ্যার উপর বিরূপ প্রভাব ফেলে।

উপসংহার

একটি সাধারণ সেটিংয়ে, 2 এর চেয়ে উচ্চতর-আদেশের পদ্ধতিগুলি একটি খারাপ ধারণা। অবশ্যই, আপনি যদি টেবিলে অতিরিক্ত সহায়ক অনুমানগুলি আনতে পারেন (উদাহরণস্বরূপ সম্ভবত আপনার ডেটা উচ্চ-ডিগ্রি বহুবর্ষের সাথে সাদৃশ্যযুক্ত, অথবা আপনার সর্বোত্তম অবস্থানের সীমাবদ্ধকরণের উপায় রয়েছে ইত্যাদি), তবে আপনি খুঁজে পেতে পারেন যে সেগুলি একটি ভাল ধারণা — তবে এটি কোনও সমস্যা-ভিত্তিক সিদ্ধান্ত হবে এবং এটি অনুসরণ করার জন্য কোনও সাধারণ নিয়ম নয়।


দুর্দান্ত উত্তর, তবে আমি মনে করি আবেল-রুফিনি উপপাদ্যটি একটি লাল রঙের হেরিং। প্রথমত, আমরা বহুবিধ সমস্যা সম্পর্কে কথা বলছি, সুতরাং অবিচ্ছিন্ন বহুবর্ষের জিরোগুলি গণনা করা সীমাবদ্ধ আগ্রহের সর্বাধিক একটি সহজ সাবপ্রব্লেম। এবং আরও গুরুত্বপূর্ণ, সমাধানের কোনও বন্ধ সূত্র রয়েছে কিনা তা বিবেচ্য নয়: বাস্তবে, যতদূর আমি জানি, লোকেরা ডিগ্রি -4 পলিনোমিয়ালের জন্য বন্ধ সূত্রগুলি ব্যবহার করে না। এগুলি খুব দীর্ঘ এবং জটিল এবং অস্থির। পলিনোমিয়ালের জিরোগুলি সংখ্যায় গণনা করা হয়, অনুশীলনে (সঙ্গী ম্যাট্রিক্সে কিউআর ব্যবহার করে)।
ফেডেরিকো পোলোনি

@ ফেডেরিকো পোলোনি: হ্যাঁ, আমি যখন এটি রাখার সিদ্ধান্ত নিচ্ছিলাম তখন আমার মনে একই ধারণা এসেছিল। আমার প্রাথমিকভাবে তা ছিল না ... আমি ভেবেছিলাম সম্ভবত উচ্চতর ডিগ্রি কেন থাকতে পারে তার অন্য একটি উদাহরণ হিসাবে আমি এগুলি করা উচিত অপ্রত্যাশিত সমস্যা তবে আমি অনুমান করি যে এটি যদি অপ্রয়োজনীয় হয় তবে আমি এটি আবার বের করে দেব, মন্তব্যের জন্য ধন্যবাদ।
মেহরদাদ

@ ফেডেরিকো পোলোনি: পিএস যখন আমরা সংখ্যার গণনা প্রসঙ্গে থাকি, আপনি স্টর্মের কার্যগুলি আকর্ষণীয় মনে করতে পারেন (যদি আপনি তাদের সম্পর্কে ইতিমধ্যে না শুনে থাকেন)।
মেহরদাদ

7

H=[2fx122fx1x22fx1xn2fx2x12fx222fx2xn2fxnx12fxnx22fxn2].

এখন দেখুন তৃতীয় ডেরাইভেটিভ দেখতে কেমন:

এইচ/এক্স=[এইচএক্স1এইচএক্স2এইচএক্সএন]
This is a three dimensional matrix. Here's how its elements look like:
(H/x)ijk=3fxixjxk

Sixth's derivative will be six dimensional matrix:

6fxixjxkxlxmxn

Usually, the trade-off is not favorable for going after higher than Hessian. I mean the trade-off between potential gain in speed through using higher order approximations vs. the noise amplification. You always have noise in inputs because we're talking about statistical applications. This noise will be amplified by the derivatives.

If you play golf then the analogy in optimization is to first swing trying to get to the green, not worry to much about a hole. Once, on the green, we'll putt aiming a hole.


4

Typically, when you analyze the effectiveness of such algorithms, you'll find results such as one step of a fourth order algorithm having roughly the same effectiveness as two steps of a second order algorithm.

So the choice of which algorithm to use is relatively simple: if one step of the fourth order algorithm takes twice as much work or more than one step of the second order algorithm, you should use the latter instead.

এই ধরণের পদ্ধতির জন্য এটি সাধারণ পরিস্থিতি: ধ্রুপদী অ্যালগরিদমের সাধারণ সমস্যার জন্য সর্বোত্তম কার্য-কার্যকারিতা অনুপাত রয়েছে। মাঝে মাঝে এমন সমস্যা রয়েছে যেখানে উচ্চতর অর্ডার পদ্ধতির গণনা করা অস্বাভাবিকভাবে সহজ এবং ক্লাসিকাল বৈকল্পিককে ছাড়িয়ে যেতে পারে তবে এগুলি তুলনামূলকভাবে অস্বাভাবিক।


2

You can think of the order of derivatives as the order of a polynomial approximation to the function. Most optimization routines rely on convexity. A quadratic polynomial will be convex/concave everywhere whereas a 3rd order or higher polynomial will not be convex everywhere. Most optimization routines rely on successive approximations of convex functions with quadratics for this reason. A quadratic approximation that is convex requires a positive definiteness condition to be imposed in order for the quadratic to be convex.


3
No, quadratics are not necessarily convex or concave (think of x2y2).
Dirk

@Dirk x2y2 equal to what?
Ovi

1
It's a quadratic function but neither convex nor concave.
Dirk

@Dirk yes you are right, I should've added a positive semi-definite caveat. I will add that to my answer.
Lucas Roberts

1

Let me be the only one here defending 3rd order methods for SGD convergence, but definitely not in the entire space what would need dim3/6 গুণফল, তবে উদাহরণস্বরূপ কেবল একটি একক দিকে, যার যদি ইতিমধ্যে এই দিকটিতে ২ য় অর্ডার মডেল থাকে তবে কেবলমাত্র একটি অতিরিক্ত অতিরিক্ত সহগ প্রয়োজন।

একক দিকের তৃতীয় অর্ডার মডেল কেন উপকারী হতে পারে? উদাহরণস্বরূপ, কারণ এই দিকের শূন্যের দ্বিতীয় ডেরিভেটিভের কাছে মূলত দুটি বিকল্প পরিস্থিতি বোঝানো হয়: মালভূমি বা প্রতিসরণ বিন্দু - কেবল পূর্বেরটির আরও বড় ধাপের আকার প্রয়োজন হয় এবং 3 য় ডেরিভেটিভ তাদের পার্থক্য করতে দেয়।

আমি বিশ্বাস করি আমরা হাইব্রিড মাল্টি-অর্ডার পদ্ধতির দিকে যাব: সামান্য গ্রেডিয়েন্টগুলির পিসিএ থেকে নিম্ন মাত্রিক উপ-স্পেসে ২ য় অর্ডার পদ্ধতি, যা এখনও এই প্রথম স্থানের গ্রেডিয়েন্ট অर्थোগোনালের অংশের জন্য নিখরচায় 1 ম ক্রম যুগপত গ্রেডিয়েন্ট বংশোদ্ভূত করার অনুমতি দেয় ... এবং অতিরিক্ত আমি একক সবচেয়ে প্রাসঙ্গিক দিকের জন্য উদাহরণস্বরূপ 3 য় অর্ডার মডেল যুক্ত করব।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.