যদি হেসিয়ানরা অপ্টিমাইজেশনের জন্য খুব ভাল হয় (উদাহরণস্বরূপ নিউটনের পদ্ধতিটি দেখুন ) তবে কেন সেখানে থামবেন? আসুন তৃতীয়, চতুর্থ, পঞ্চম এবং ষষ্ঠ ডেরিভেটিভ ব্যবহার করি? কেন না?
যদি হেসিয়ানরা অপ্টিমাইজেশনের জন্য খুব ভাল হয় (উদাহরণস্বরূপ নিউটনের পদ্ধতিটি দেখুন ) তবে কেন সেখানে থামবেন? আসুন তৃতীয়, চতুর্থ, পঞ্চম এবং ষষ্ঠ ডেরিভেটিভ ব্যবহার করি? কেন না?
উত্তর:
আমি এই প্রশ্নের ব্যাখ্যা দিচ্ছি যে "নিউটনের পদ্ধতিটি কেবল তৃতীয় বা উচ্চতর ডেরাইভেটিভ নয়, কেবল প্রথম এবং দ্বিতীয় ডেরিভেটিভ ব্যবহার করে?"
আসলে, অনেক ক্ষেত্রে তৃতীয় ডেরিভেটিভে যাওয়া সাহায্য করে; আমি এটি কাস্টম স্টাফ দিয়ে আগে করেছি। তবে, সাধারণভাবে, উচ্চতর ডেরিভেটিভগুলিতে যাওয়া গণনা সংক্রান্ত জটিলতা যোগ করে - আপনাকে সেই সমস্ত ডেরাইভেটিভগুলি খুঁজে বের করতে হবে এবং গণনা করতে হবে, এবং বহুবিধ সমস্যার জন্য, প্রথম ডেরাইভেটিভগুলির চেয়ে অনেক বেশি তৃতীয় ডেরিভেটিভ রয়েছে! - এটি যদি আপনার প্রাপ্ত পদক্ষেপের পরিমাণের তুলনায় অনেক বেশি পরিমাণে ছাড়িয়ে যায়। উদাহরণস্বরূপ, যদি আমার ত্রি-মাত্রিক সমস্যা থাকে তবে আমার কাছে 3 টি প্রথম ডেরিভেটিভস, 6 দ্বিতীয় ডেরিভেটিভস এবং 10 তৃতীয় ডেরিভেটিভ রয়েছে, সুতরাং তৃতীয়-ক্রমের সংস্করণে গিয়ে আমার যে মূল্যায়ন করতে হবে তার দ্বিগুণের চেয়েও বেশি (9 থেকে 19), একবার আমি এই মূল্যায়নগুলি সম্পন্ন করার পরে পদক্ষেপের দিক / আকার নির্ধারণের বর্ধিত জটিলতার কথা উল্লেখ না করে, তবে অবশ্যই আমি অর্ধেক পদক্ষেপগুলি গ্রহণ করতে পারি না।
এখন, ভেরিয়েবলগুলির সাথে সাধারণ ক্ষেত্রে , এন টি এইচ আংশিক ডেরিভেটিভসের সংখ্যার সংখ্যা হবে ( কে + এন - 1, সুতরাং পাঁচটি ভেরিয়েবলের সমস্যার জন্য, তৃতীয়, চতুর্থ এবং পঞ্চম আংশিক ডেরিভেটিভসের মোট সংখ্যা 231 সমান হবে, প্রথম এবং দ্বিতীয় আংশিক ডেরিভেটিভ (20) এর সংখ্যার চেয়ে 10 গুণ বেশি বৃদ্ধি হবে। আপনার অতিরিক্ত গুনগত বোঝা বহন করতে পুনরাবৃত্তি গণনাগুলিতে বড় পরিমাণে হ্রাস দেখতে ভেরিয়েবলের একটি পঞ্চম-আদেশের বহুপদী খুব কাছেই আপনার একটি সমস্যা থাকতে হবে।
এই প্রশ্নের পরিসংখ্যানগত দিকটি আমি আসলে দেখছি না, তাই আমি অপ্টিমাইজেশনের অংশটি উত্তর দেব।
এখানে খুব সুন্দর প্রতিটি উত্তর কেবল পুনরাবৃত্তির ব্যয়কে কেন্দ্র করে এবং পুনরাবৃত্তির গণনা উপেক্ষা করছে । তবে দুজনেরই ব্যাপার। এমন একটি পদ্ধতি যা 1 ন্যানোসেকেন্ডে পুনরাবৃত্তি করে তবে রূপান্তর করতে পুনরাবৃত্তি লাগে যা আপনার কোনও ভাল করবে না। এবং এটির পুনরুক্তি ব্যয়টি যতই সস্তা হোক না কেন, এমন পদ্ধতি এমনভাবে কার্যকর হয় না যেগুলি কার্যকর হয়।
আসুন কী ঘটছে তা নির্ধারণ করুন।
আংশিক কারণ (এবং এটি ২ য়-অর্ডারের পক্ষেও সত্য, তবে এটিতে আরও কিছু):
অন্যদিকে, তারা সর্বোত্তম থেকে দূরে থাকলে তারা আরও সহজেই উড়ে যায় !
(অবশ্যই, এটি সর্বদা সত্য নয়; উদাহরণস্বরূপ, নিউটনের পদ্ধতির সাথে একটি চতুর্ভুজ এক ধাপে রূপান্তরিত করবে But তবে বাস্তব বিশ্বে যেগুলি ভাল সম্পত্তি নেই তার স্বেচ্ছাসেবী কার্যক্রমে, এটি সাধারণত সত্য))
এর মানে হল যখন আপনি অধিকতর সর্বোত্তম থেকে দূরে আছে, আপনি সাধারণত চান পদ্ধতি: একটি কম-অর্ডার (প্রথম-অর্ডার পড়ুন)। আপনি যখনই কাছাকাছি থাকবেন কেবল তখনই আপনি পদ্ধতির ক্রমটি বাড়িয়ে দিতে চান।
কেন তা দেখতে, আপনাকে প্রথমে বুঝতে হবে "চতুর্ভুজ রূপান্তর" এর অর্থ কী ।
গাণিতিকভাবে, দ্বিঘাত অভিসৃতি মানে যদি, পুনরাবৃত্তির আপনার ত্রুটি ট , তারপর নিম্নলিখিত অবশেষে কিছু ধ্রুবক জন্য কথা সত্য গ :
সরল ইংরেজিতে এর অর্থ হ'ল, একবার আপনি সর্বোত্তম (গুরুত্বপূর্ণ!) এর কাছাকাছি পৌঁছে গেলে প্রতিটি অতিরিক্ত পদক্ষেপ নির্ভুলতার অঙ্কের সংখ্যা দ্বিগুণ করে ।
এই মুহুর্তে, আপনি যদি কোনও কম্পিউটার বিজ্ঞান জানেন তবে আপনি বুঝতে পারেন যে ২ য়-অর্ডার কনভার্জেন্সের মাধ্যমে সমস্যাটি ইতিমধ্যে সমাধান হয়ে গেছে । আপনি যদি দেখতে না পান কেন, এখানে কেন: প্রতিটি পুনরাবৃত্তিকে দ্বিগুণ করার পরিবর্তে তিন সংখ্যার চেয়ে তিন অঙ্কের সংখ্যা অর্জনের ব্যবহারিক কিছুই নেই you এটি আপনাকে কেনাচ্ছে ? সর্বোপরি, একটি কম্পিউটারে, এমনকি একটি পূর্বনির্ধারণের সংখ্যাটিতে 52 বিট রয়েছে যথার্থতা, যা প্রায় 16 দশমিক অঙ্কের।
হতে পারে এটি আপনার 16 থেকে 3 পদক্ষেপের প্রয়োজনীয়তা হ্রাস করবে ... যা দুর্দান্ত শোনায়, যতক্ষণ না আপনি উপলব্ধি করেন যে এটি প্রতিটি পুনরাবৃত্তির তৃতীয় ডেরিভেটিভগুলি গণনা করার মূল্যে আসে , এটিই যেখানে মাত্রিকতার অভিশাপdouble
অন্য অর্ধেকটি হ'ল আপনি সর্বোত্তম থেকে দূরে থাকাকালীন আপনি সাধারণত খারাপ আচরণ পান যা সাধারণত আপনার করা পুনরাবৃত্তির সংখ্যার উপর বিরূপ প্রভাব ফেলে।
একটি সাধারণ সেটিংয়ে, 2 এর চেয়ে উচ্চতর-আদেশের পদ্ধতিগুলি একটি খারাপ ধারণা। অবশ্যই, আপনি যদি টেবিলে অতিরিক্ত সহায়ক অনুমানগুলি আনতে পারেন (উদাহরণস্বরূপ সম্ভবত আপনার ডেটা উচ্চ-ডিগ্রি বহুবর্ষের সাথে সাদৃশ্যযুক্ত, অথবা আপনার সর্বোত্তম অবস্থানের সীমাবদ্ধকরণের উপায় রয়েছে ইত্যাদি), তবে আপনি খুঁজে পেতে পারেন যে সেগুলি একটি ভাল ধারণা — তবে এটি কোনও সমস্যা-ভিত্তিক সিদ্ধান্ত হবে এবং এটি অনুসরণ করার জন্য কোনও সাধারণ নিয়ম নয়।
এখন দেখুন তৃতীয় ডেরাইভেটিভ দেখতে কেমন:
Sixth's derivative will be six dimensional matrix:
Usually, the trade-off is not favorable for going after higher than Hessian. I mean the trade-off between potential gain in speed through using higher order approximations vs. the noise amplification. You always have noise in inputs because we're talking about statistical applications. This noise will be amplified by the derivatives.
If you play golf then the analogy in optimization is to first swing trying to get to the green, not worry to much about a hole. Once, on the green, we'll putt aiming a hole.
Typically, when you analyze the effectiveness of such algorithms, you'll find results such as one step of a fourth order algorithm having roughly the same effectiveness as two steps of a second order algorithm.
So the choice of which algorithm to use is relatively simple: if one step of the fourth order algorithm takes twice as much work or more than one step of the second order algorithm, you should use the latter instead.
এই ধরণের পদ্ধতির জন্য এটি সাধারণ পরিস্থিতি: ধ্রুপদী অ্যালগরিদমের সাধারণ সমস্যার জন্য সর্বোত্তম কার্য-কার্যকারিতা অনুপাত রয়েছে। মাঝে মাঝে এমন সমস্যা রয়েছে যেখানে উচ্চতর অর্ডার পদ্ধতির গণনা করা অস্বাভাবিকভাবে সহজ এবং ক্লাসিকাল বৈকল্পিককে ছাড়িয়ে যেতে পারে তবে এগুলি তুলনামূলকভাবে অস্বাভাবিক।
You can think of the order of derivatives as the order of a polynomial approximation to the function. Most optimization routines rely on convexity. A quadratic polynomial will be convex/concave everywhere whereas a 3rd order or higher polynomial will not be convex everywhere. Most optimization routines rely on successive approximations of convex functions with quadratics for this reason. A quadratic approximation that is convex requires a positive definiteness condition to be imposed in order for the quadratic to be convex.
Let me be the only one here defending 3rd order methods for SGD convergence, but definitely not in the entire space what would need গুণফল, তবে উদাহরণস্বরূপ কেবল একটি একক দিকে, যার যদি ইতিমধ্যে এই দিকটিতে ২ য় অর্ডার মডেল থাকে তবে কেবলমাত্র একটি অতিরিক্ত অতিরিক্ত সহগ প্রয়োজন।
একক দিকের তৃতীয় অর্ডার মডেল কেন উপকারী হতে পারে? উদাহরণস্বরূপ, কারণ এই দিকের শূন্যের দ্বিতীয় ডেরিভেটিভের কাছে মূলত দুটি বিকল্প পরিস্থিতি বোঝানো হয়: মালভূমি বা প্রতিসরণ বিন্দু - কেবল পূর্বেরটির আরও বড় ধাপের আকার প্রয়োজন হয় এবং 3 য় ডেরিভেটিভ তাদের পার্থক্য করতে দেয়।
আমি বিশ্বাস করি আমরা হাইব্রিড মাল্টি-অর্ডার পদ্ধতির দিকে যাব: সামান্য গ্রেডিয়েন্টগুলির পিসিএ থেকে নিম্ন মাত্রিক উপ-স্পেসে ২ য় অর্ডার পদ্ধতি, যা এখনও এই প্রথম স্থানের গ্রেডিয়েন্ট অर्थোগোনালের অংশের জন্য নিখরচায় 1 ম ক্রম যুগপত গ্রেডিয়েন্ট বংশোদ্ভূত করার অনুমতি দেয় ... এবং অতিরিক্ত আমি একক সবচেয়ে প্রাসঙ্গিক দিকের জন্য উদাহরণস্বরূপ 3 য় অর্ডার মডেল যুক্ত করব।