কেন নিউটনের পদ্ধতিটি মেশিন লার্নিংয়ে ব্যাপকভাবে ব্যবহৃত হয় না?


131

এটি এমন একটি বিষয় যা আমাকে কিছুক্ষণের জন্য ত্রুটিযুক্ত করে চলেছে এবং আমি অনলাইনে কোনও সন্তোষজনক উত্তর খুঁজে পেলাম না, তাই এখানে যায়:

উত্তল অপ্টিমাইজেশনের উপর বক্তৃতার একটি সেট পর্যালোচনা করার পরে, নিউটনের পদ্ধতিটি বিশ্বব্যাপী অনুকূল সমাধানগুলি অনুসন্ধানের জন্য গ্রেডিয়েন্ট বংশোদ্ভূত চেয়ে অনেক উচ্চতর অ্যালগরিদম বলে মনে হচ্ছে, কারণ নিউটনের পদ্ধতিটি তার সমাধানের জন্য একটি গ্যারান্টি সরবরাহ করতে পারে, এটি সর্বাধিক আক্রমণাত্মক, এবং এটি বেশিরভাগ ক্ষেত্রে রূপান্তরিত করে in অনেক কম পদক্ষেপ। দ্বিতীয়-ক্রমের অপ্টিমাইজেশন অ্যালগরিদমগুলি যেমন নিউটনের পদ্ধতিটি মেশিন লার্নিংয়ের সমস্যায় স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত হিসাবে ব্যাপকভাবে ব্যবহৃত হয় না?


23
স্নায়ুবহুল নেটওয়ার্কগুলির জন্য, ডিপ্লিওনারিংবুক.অর্গ বিভাগ "8.6 আনুমানিক দ্বিতীয়-আদেশের পদ্ধতিগুলি" একটি দুর্দান্ত ওভারভিউ দেয়। সংক্ষেপে "উদ্দেশ্যমূলক কার্যকারণের নির্দিষ্ট বৈশিষ্ট্য যেমন স্যাডল পয়েন্টগুলির দ্বারা সৃষ্ট চ্যালেঞ্জগুলির বাইরে, বৃহত নিউরাল নেটওয়ার্কগুলি প্রশিক্ষণের জন্য নিউটনের পদ্ধতির প্রয়োগ এটি চাপিয়ে দেওয়া উল্লেখযোগ্য গণনার ভার দ্বারা সীমাবদ্ধ।" নিউটনের পদ্ধতির কিছু সুবিধা অর্জনের চেষ্টা করার সময় এমন কিছু বিকল্প রয়েছে যা গণনার ক্ষেত্রে বাধার পাশাপাশি রয়েছে, তবে তাদের নিজস্ব সমস্যা রয়েছে।
ফ্রাঙ্ক ডারননকোর্ট

1
এই সম্পর্কিত প্রশ্ন এবং মন্তব্যগুলি দেখুন, stats.stackexchange.com
ডু

1
মনে রাখবেন যে অন্যান্য মন্তব্যে কেবল "গভীর শিক্ষা" এর বাইরেও মেশিন লার্নিংয়ের কিছু বিস্তৃত প্রয়োগযোগ্যতা রয়েছে। যদিও সমস্ত এমএল সমস্যাগুলি "বিগ ডেটা" হতে পারে, সমস্ত এমএল সমস্যাগুলি অগত্যা "বড় বৈশিষ্ট্যগুলি" (যেমন টিউন করার জন্য অনেকগুলি পরামিতি) নয়, যদিও গভীর শেখা অবিচ্ছিন্নভাবে হয়।
জিওম্যাট 22

1
এটা যে মেশিনে গভীর শেখার বাইরে শেখার এর মূল্য, L- BFGS (যা মোটামুটিভাবে ভাষী, পরিমাপক নিউটনের পদ্ধতি) হয় একটি মোটামুটি সাধারণ অপ্টিমাইজেশান এলগরিদম।
ডগল

2
নিউটনের পদ্ধতিটি অনুগ্রহ করে ধরেছে, আধুনিক এমএল সমস্যা (নিরপেক্ষ জাল) উত্তল কাছাকাছি কোথাও নাও হতে পারে, যদিও স্বীকার করা হয় যে সেখানে মুক্ত গবেষণার ক্ষেত্র রয়েছে। সুতরাং নিউটনের পদ্ধতিটি সম্ভবত যে কোনও জায়গায় লিনিয়ারের মতোই অনুমানক হিসাবে খারাপ তবে গণনার পয়েন্টের কাছে। গণনায় চতুর্ভুজ বৃদ্ধি পেতে আপনি সম্ভবত খুব সামান্য উপার্জন পাবেন। এটি বলেছিল, বার্কলেতে সাম্প্রতিক একটি সম্মেলনে ২ য় অর্ডার পদ্ধতি ব্যবহারে অগ্রগতি দেখানোর জন্য একজন উপস্থাপক রয়েছেন, সুতরাং এটি কোনওভাবেই মৃত নয়।
ডেভিড পার্কস

উত্তর:


95

গ্রেডিয়েন্ট বংশোদ্ভূত তার ডেরাইভেটিভ জ্ঞান ব্যবহার করে একটি ফাংশন সর্বাধিক করে। নিউটনের পদ্ধতি, একটি মূল অনুসন্ধানী অ্যালগরিদম, এর দ্বিতীয় ডেরাইভেটিভের জ্ঞান ব্যবহার করে একটি ফাংশন সর্বাধিক করে তোলে। এটি দ্বিতীয় তাত্পর্যপূর্ণ যখন গণনা করা সহজ এবং গণ্য করা সহজ হয় তখন দ্রুত হতে পারে (নিউটন-রাফসন অ্যালগরিদম লজিস্টিক রিগ্রেশন ব্যবহৃত হয়)। তবে দ্বিতীয় ডেরাইভেটিভের জন্য বিশ্লেষণাত্মক ভাবটি প্রায়শই জটিল বা জটিল হয়, যার জন্য প্রচুর গণনার প্রয়োজন হয়। দ্বিতীয় ডেরাইভেটিভ গণনার জন্য সংখ্যাগত পদ্ধতিতেও প্রচুর গণনার প্রয়োজন হয় - যদি মানগুলি প্রথম ডেরাইভেটিভের গণনা করতে হয় তবে দ্বিতীয় ডেরিভেটিভের জন্য প্রয়োজন।এন 2NN2


5
গৌস-নিউটন পদ্ধতিটি (ভিত্তিতে বিষয়গুলি) সম্ভবত আরও সাধারণ not এটি নিউটোনারের সর্বনিম্ন স্কয়ারগুলিতে বিশেষীকরণ।
জিওম্যাট 22

4
আমি গৌস-নিউটনকে ননলাইনার সর্বনিম্ন স্কোয়ারগুলিতে নিউটনের একটি বিশেষীকরণ বলব না। আমি এটিকে নিউটোনারের সর্বনিম্ন বর্গক্ষেত্রের জন্য জারজিকিত অনুমান হিসাবে আখ্যায়িত করব, যেটি আরও সঠিক হেসিয়ান সান্নিধ্য ব্যবহার করে, ফিটিত সমীকরণের অবশিষ্টাংশগুলি আরও বৃহত্তর এবং তদনুসারে, আরও তর্কটি অনুকূলতা থেকে আসে।
মার্ক এল। স্টোন

1
@ মার্কএল.স্টোন ফেয়ার পয়েন্ট, আমি প্রযুক্তিগততায় না যাওয়ার চেষ্টা করছিলাম :) এটি সত্য যে গাউস-নিউটন স্টাইলের পদ্ধতিগুলি "নকল" দ্বিতীয় আদেশের ডাব্লু / শুধুমাত্র প্রথম আদেশের তথ্য চেষ্টা করে। ব্যক্তিগতভাবে আমি কখনই অপ্টিমাইজেশনের জন্য নিউটন পদ্ধতি ব্যবহার করি নি, কেবল গাউস-নিউটন (বা এলএম, বা ~ অনুরূপ ইউকেএফ) বা ডিএফও- এসকিউপি পদ্ধতি (যেমন BOBYQA )। "অনুকূলতা" একটি জটিল প্রশ্ন আমি বলব ... একটি এমএল সমস্যার জন্য, বনাম বলুন ইঞ্জিনিয়ারিং ডিজাইন-অপ্টিমাইজেশান সমস্যা, "স্থানীয় হেসিয়ান" এর নির্ভরযোগ্যতা / তথ্যবোধ সন্দেহজনক হতে পারে। সম্ভবত অ-স্থানীয় ডিএফও-এসকিউপি ~ "স্টোকাস্টিক নিউটন"? (যেমন "অনলাইন")
জিওম্যাট 22

1
দ্বিতীয় চিন্তায়, ডিএফও-এসকিউপি পদ্ধতির ডেটা ব্যাচগুলির পরিবর্তে প্যারামিটার স্পেসে ননালোকাল থাকে। UKF "সম্ভাব্যতার সূত্রাবলি নিউটন" থেকে গন্ধ নিকটতম হতে পারে অনলাইনে W / সীমিত স্মৃতি ... কিন্তু এটা কার্যকরভাবে একটি ইতিবাচক-নির্দিষ্ট চট অনুমান (অর্থাত গসিয়ান প্রায়।)।
জিওম্যাট 22

1
আসলে এটি বিভ্রান্তিমূলক কারণ সিগির মতো দ্বিতীয় ক্রম পদ্ধতি রয়েছে যার জন্য হেসিয়ান গণনার প্রয়োজন হয় না। সিজি এর কে পুনরাবৃত্তি কেবল কেএন ব্যয় করবে। এটা ঠিক যে সিজি তাত্ত্বিকভাবে নিউটনের সাথে কেবল কে = এন এ মিলবে, তবে সত্যই আপনার এতগুলি পুনরাবৃত্তি দরকার নেই need
ব্যবহারকারী 25322

40

মেশিন লার্নিংয়ে আরও বেশি লোকের নিউটনের পদ্ধতিটি ব্যবহার করা উচিত । আমি এইটিকে এমন সংখ্যক অপ্টিমাইজেশনের পটভূমি হিসাবে বলছি, যিনি বিগত কয়েক বছর ধরে মেশিন লার্নিংয়ে দক্ষ হয়ে উঠছেন।

আপনি যদি নিউটনের পদ্ধতিটি সঠিকভাবে ব্যবহার করেন তবে এখানে উত্তরের (এবং এমনকি সাহিত্যে) ত্রুটিগুলি কোনও সমস্যা নয়। তদুপরি, যে ত্রুটিগুলি গুরুত্বপূর্ণ তা গ্রেডিয়েন্ট বংশোদ্ভূত একই পরিমাণ বা আরও কিছুটা কমিয়ে দেয়, তবে কম স্পষ্টতন্ত্রের মাধ্যমে।

  • ওল্ফের অবস্থার সাথে লিনিয়ারচ ব্যবহার করা বা বিশ্বাসের অঞ্চলগুলি ব্যবহার করা বা কেনা পয়েন্টগুলিতে রূপান্তরকে বাধা দেয়। একটি সঠিক গ্রেডিয়েন্ট বংশোদ্ভূত বাস্তবায়নও এটি করা উচিত। কাগজ উল্লেখ Cam.Davidson.Pilon এর উত্তর জিন পয়েন্ট উপস্থিতিতে "নিউটনের পদ্ধতি" সঙ্গে সমস্যা তুলে ধরে, কিন্তু ফিক্স তারা প্রচার একটি নিউটন পদ্ধতি।

  • নিউটনের পদ্ধতি ব্যবহারের জন্য পুরো (ঘন) হেসিয়ান নির্মাণের প্রয়োজন হয় না; আপনি পুনরাবৃত্ত পদ্ধতিগুলির সাথে কেবলমাত্র ম্যাট্রিক্স-ভেক্টর পণ্য ব্যবহার করে (উদাহরণস্বরূপ, ক্রেজিট গ্রেডিয়েন্টের মতো ক্রাইলোভ পদ্ধতি) ব্যবহার করে একটি হেক্টিয়ানটির বিপরীতটি পুনরুদ্ধার পদ্ধতিগুলির সাথে একটি ভেক্টরে প্রয়োগ করতে পারেন। উদাহরণস্বরূপ, সিজি-স্টিহাগ বিশ্বাসের অঞ্চল পদ্ধতিটি দেখুন।

  • ইতিমধ্যে গ্রেডিয়েন্ট (যেমন নিউরাল নেটওয়ার্ক প্রশিক্ষণে দুটি ব্যাকপ্রোপেশন ধাপের কাজ) গণনা করার জন্য ব্যবহৃত হয় ঠিকানার সমীকরণ হিসাবে একই ফর্মের দুটি উচ্চতর অর্ডন সমীকরণ সমীকরণ সমাধান করে আপনি হেসিয়ান ম্যাট্রিক্স-ভেক্টর পণ্যগুলি দক্ষতার সাথে গণনা করতে পারেন।

  • ইন্ডিশন কন্ডিশনার পুনরাবৃত্ত লিনিয়ার সলভারগুলির অভিমুখে গতি কমায়, তবে এটি সমান বা আরও খারাপ গ্রেডিয়েন্ট বংশোদ্ভূতিকে ধীর করে দেয়। গ্রেডিয়েন্ট বংশদ্ভুতের পরিবর্তে নিউটনের পদ্ধতি ব্যবহার করা অসুবিধাটিকে নৈখিক অপ্টিমাইজেশন পর্যায়ে (যেখানে পরিস্থিতি উন্নতির জন্য খুব বেশি কিছু করা যায় না) থেকে রৈখিক বীজগণিত পর্যায়ে স্থানান্তরিত করে (যেখানে আমরা সংখ্যাগত লিনিয়ার বীজগণিত পূর্বশর্ত কৌশলগুলির পুরো অস্ত্রাগার দিয়ে এটি আক্রমণ করতে পারি)।

  • এছাড়াও, গণনাটি "অনেকগুলি সস্তা ধাপ" থেকে "কয়েকটি ব্যয়বহুল পদক্ষেপ" এ স্থানান্তরিত করে উপ-পদক্ষেপ (লিনিয়ার বীজগণিত) স্তরে সমান্তরালতার আরও বেশি সুযোগ উন্মুক্ত করে।

এই ধারণাগুলি সম্পর্কে পটভূমি তথ্যের জন্য, আমি নোসেডাল এবং রাইটের "সংখ্যাসূচক অপ্টিমাইজেশন" বইয়ের প্রস্তাব দিই ।

* অবশ্যই, নিউটনের পদ্ধতি আপনাকে এল 1 বা অন্যান্য অনুরূপ সংকোচক সংবেদন / স্পারসিটি দিয়ে জরিমানার ক্রিয়াকলাপ প্রচার করবে না, কারণ তাদের প্রয়োজনীয় সাবলীলতা নেই।


2
আমি মনে করি আমরা একে অপরের সাথে সহিংস চুক্তিতে রয়েছি, অন্য সবার সাথে নয়।
মার্ক এল। স্টোন

1
এটি তুলনা করার মতো যা যুক্তরাজ্য বা মার্কিন যুক্তরাষ্ট্রে প্রতিটি দেশের সেরা স্কুল থেকে বেরিয়ে আসা গণিতের স্নাতক শিক্ষার্থীদের শীর্ষ চূড়ান্ত তুলনা না করে ২ 26 বছরের পুরাতন মাদকাসক্ত উচ্চ বিদ্যালয়ের পড়াশুনার গণিতের দক্ষতার সাথে তুলনা করে আরও ভাল গণিতবিদ তৈরি করে কিনা produces কাগজটি স্বাক্ষরিত, সীলমোহর করা হয়েছে, এবং সরবরাহ করা হয়েছে, কেউ নেই এবং আমি বলতে চাইছি কেউ এটি পরিবর্তন করে না বা এখনই তা প্রত্যাহার করে না। Incroyable।
মার্ক এল স্টোন

3
@ মার্কএল.স্টোন মনে হচ্ছে এখানে কথোপকথন হয়েছে এবং আমি দূরে থাকাকালীন মুছে ফেলা হয়েছিল। যাইহোক, আমি মনে করি আপনি ঠিক বলেছেন যে আমরা একে অপরের সাথে একমত এবং অন্য কারও সাথেও না। আমার ধারণা, এখানকার অন্যান্য মানুষের তুলনায় আমাদের পটভূমির উপর ভিত্তি করে এটি প্রত্যাশিত হবে। আপনি সম্ভবত প্রত্যাশা হিসাবে আমি লিঙ্কযুক্ত কাগজ খুব বেশি ভাবেন না। অন্যদিকে, আমি মনে করি যে রিমনানিয়ান নিউটনের পদ্ধতিটিকে বহুগুণিত করেছেন , যেখানে কেউ নিউটনের অনুসন্ধানের দিক দিয়ে একটি জিওডেসিক ট্র্যাজেক্টোরি অঙ্কন করে, এটি খুব কঠিন সমস্যার জন্য অনেক প্রতিশ্রুতিযুক্ত একটি কৌশল।
নিক

2
আপনি একটি বড় প্রশিক্ষণ সেট কিভাবে মোকাবেলা করবে? আপনার যদি উদাহরণস্বরূপ 1 মিলিয়ন প্রশিক্ষণের নমুনা থাকে তবে কেবলমাত্র বর্তমান অপ্টিমাইজেশনের উদ্দেশ্যটি মূল্যায়নের জন্য 1 মিলিয়ন নমুনা পরীক্ষা করা প্রয়োজন testing এবং আপনাকে লাইন অনুসন্ধানের সময় একাধিকবার এটি করা দরকার। সুতরাং আপনি 1 নিউটন পদক্ষেপটি সম্পন্ন করার পরে স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত কয়েক মিলিয়ন আপডেট করেছে।
নিকি

2
নিক এবং @ মার্কএল.স্টোন: আপনি মূলত এই পদ্ধতির বিষয়ে কথা বলছেন ? এটি এমন একটি বিষয় যা গভীরভাবে শেখার ক্ষেত্রে সংক্ষিপ্তভাবে জনপ্রিয় ছিল, বিশেষত পুনরাবৃত্ত জালের জন্য, তবে তখন থেকে অনুমানের বাইরে চলে গেছে আমি ধরে নিয়েছি কারণ এটি অভিযোজিত গ্রেডিয়েন্ট পদ্ধতির তুলনায় কেবল অভিজ্ঞতাই কাজ করে নি। যদি তারা কেবল কিছু ভুল করে চলেছে এবং আপনি যা কিছু ঠিক করেন এবং এটি বর্তমান স্ট্যান্ডার্ড এসজিডি ভেরিয়েন্ট অ্যাডামকে ছাড়িয়ে যায় তা দেখান, আপনি একটি বড় প্রভাব ফেলতে পারেন: অ্যাডাম পেপারটি দুই বছরে 1345 টি উদ্ধৃতি পেয়েছে ....
ডগল

33

আমি সম্প্রতি এটি নিজেই শিখেছি - সমস্যাটি হ'ল হাই-ডাইমেনশনাল স্পেসের স্যাডল পয়েন্টগুলির বিস্তার, যা নিউটন পদ্ধতিতে রূপান্তর করতে চায়। এই নিবন্ধটি দেখুন: উচ্চ-মাত্রিক অ-উত্তল অপটিমাইজেশনে স্যাডল পয়েন্ট সমস্যার সনাক্তকরণ এবং আক্রমণ করা

প্রকৃতপক্ষে স্থানীয় মিনিমাতে স্যাডল পয়েন্টের সংখ্যার অনুপাতটি মাত্রিকতা এন এর সাথে তাত্পর্যপূর্ণভাবে বৃদ্ধি পায়।

যখন গ্রেডিয়েন্ট বংশোদ্ভূত গতিশীলতা নেতিবাচক বক্ররেখার নির্দেশ অনুসরণ করে একটি স্যাডল পয়েন্ট থেকে নিম্ন ত্রুটির দিকে দূরে সরে যায়, ... নিউটন পদ্ধতিটি জিন পয়েন্টগুলি যথাযথভাবে আচরণ করে না; নীচে যুক্তি অনুসারে, জিন পয়েন্টগুলি পরিবর্তে নিউটন গতিবিদ্যার অধীনে আকর্ষণীয় হয়ে উঠেছে।


3
আপনি কেন কিছু ব্যাখ্যা করতে পারেন? তত্ত্ব অনুসারে, নিউটনের পদ্ধতিটি প্রতিটি ইগেনভেেক্টরগুলির জন্য "অনুকূল" ওজন সহ একটি ভারী গ্রেডিয়েন্ট বংশোদ্ভূত হয়।
nbubis

4
এই নিবন্ধটি নিউটনের পদ্ধতিগুলি "স্যাডল পয়েন্টগুলিতে রূপান্তরিত করতে" চান সম্পর্কে যা বলেছে তা কেবল নিউটনের পদ্ধতির আবর্জনা বাস্তবায়নের ক্ষেত্রে সত্য।
মার্ক এল। স্টোন

কাগজটি সমস্যাটিকে ইগেনভ্যালু এবং ইগেনভেেক্টরগুলির ক্ষেত্রে পুনরায় সংশোধন করে এবং ব্যবহার করে যে গ্রেডিয়েন্ট বংশোদ্ভূত একটি স্যাডল পয়েন্ট থেকে দূরে সরে যায়: এটি নেতিবাচক ই-ভেক্টরগুলির দিকের দিকে স্যাডল পয়েন্টের দিকে এগিয়ে যায়, তবে এটি দিকের দিকে চলে যায় ইতিবাচক ই-ভেক্টর, সুতরাং এটি শেষ পর্যন্ত স্যাডল পয়েন্টটি ছেড়ে দেয়। অন্যদিকে নিউটনের এমন কোনও গ্যারান্টি নেই।
এলিজাবেথ সান্টোরেলা

এই গবেষণাপত্রে তারা যে নতুন অ্যালগরিদমকে সমর্থন করে তা হ'ল নিউটনের পদ্ধতি যদিও (এক বৈকল্পিক)। এটি ইতিবাচক বক্রতার দিকনির্দেশের জন্য নিউটনের পদ্ধতি এবং নেতিবাচক বক্রতার দিকনির্দেশের জন্য নেতিবাচক নিউটনের পদ্ধতি।
নিক

26

দুটি কারণের সংমিশ্রণ:

  • নিউটন পদ্ধতিটি স্যাডল পয়েন্টগুলিতে আকর্ষণ করে;
  • স্যাডল পয়েন্টগুলি মেশিন লার্নিংয়ে, বা বাস্তবে কোনও মাল্টিভেরিয়েবল অপ্টিমাইজেশনে সাধারণ।

ফাংশনটি দেখুন

f=x2y2
এখানে চিত্র বর্ণনা লিখুন

xn+1=xn[Hf(xn)]1f(xn)

H=[2fx122fx1x22fx1xn2fx2x12fx222fx2xn2fxnx12fxnx22fxn2].

H=[2002]

[Hf]1=[1/2001/2]

f=[2x2y]

[xy]n+1=[xy]n[1/2001/2][2xn2yn]=[xy]n[xy]n=[00]

x=0,y=0

বিপরীতে, গ্রেডিয়েন্ট বংশদ্ভুত পদ্ধতিটি জিন পয়েন্টে নিয়ে যাবে না। স্যাডল পয়েন্টে গ্রেডিয়েন্টটি শূন্য, তবে উপরের গ্রেডিয়েন্ট থেকে আপনি দেখতে পাচ্ছেন একটি ক্ষুদ্র পদক্ষেপ অপ্টিমাইজেশনকে সরিয়ে ফেলবে - y- ভেরিয়েবলের উপর এর গ্রেডিয়েন্টটি নেতিবাচক।


1
আপনাকে ধন্যবাদ আমি আসলে বুঝতে পেরেছিলাম যে এ পদ্ধতিটি এ থেকে জেড পর্যন্ত কীভাবে কাজ করে, তাই এই পরিষ্কার উদাহরণের জন্য আপনাকে অনেক ধন্যবাদ!
গ্রিনোল্ডম্যান

এখানে প্রিয় পয়েন্ট কি হবে?
বেন

14

আপনি দুটি প্রশ্ন জিজ্ঞাসা করেছেন: কেন বেশি লোক নিউটনের পদ্ধতি ব্যবহার করেন না এবং কেন এত লোক স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত ব্যবহার করে? এই প্রশ্নগুলির পৃথক উত্তর রয়েছে, কারণ এমন অনেক অ্যালগরিদম রয়েছে যা নিউটনের পদ্ধতির গণনা বোঝা কমিয়ে দেয় তবে প্রায়শই এসজিডির চেয়ে ভাল কাজ করে।

HO(N2)NgO(N)H1gO(N3)গনা. সুতরাং যখন হেসিয়ান গণনা ব্যয়বহুল, এটিকে বিপরীত করা বা কমপক্ষে স্কোয়ারগুলি সমাধান করা প্রায়শই খারাপ। (আপনার যদি অল্প বৈশিষ্ট্যযুক্ত বৈশিষ্ট্য থাকে, অ্যাসিমেটোটিকগুলি আরও ভাল দেখায়, তবে অন্যান্য পদ্ধতিগুলি আরও ভাল পারফর্ম করে, তাই স্পারসিটি নিউটনকে তুলনামূলকভাবে বেশি আকর্ষণীয় করে তোলে না))

দ্বিতীয়ত, অনেকগুলি পদ্ধতি, কেবল গ্রেডিয়েন্ট বংশদ্ভুত নয়, নিউটনের চেয়ে বেশি ব্যবহৃত হয়; এগুলি প্রায়শই নিউটনের পদ্ধতির নকআক হয়, এই অর্থে যে তারা প্রতি ধাপে কম কম্পিউটেশনাল ব্যয়ে একটি নিউটনের পদক্ষেপের অনুমান করে তবে একত্রিত হতে আরও পুনরাবৃত্তি গ্রহণ করে। কিছু উদাহরণ:

  • H1

  • O(N2)

  • আপনি যখন দ্বিতীয় ডেরিভেটিভসকে মোটামুটিভাবে মোকাবেলা করতে চান না, তখন গ্রেডিয়েন্ট বংশোদ্ভূত আবেদন করে কারণ এটি কেবলমাত্র প্রথম আদেশের তথ্য ব্যবহার করে। গ্রেডিয়েন্ট বংশোদ্ভুতভাবে বিপরীত হেসিয়ানকে শনাক্তকরণ হারকে সনাক্তকরণের ম্যাট্রিক্স হিসাবে গতিযুক্ত করে তুলছে। আমি, ব্যক্তিগতভাবে, খুব কমই গ্রেডিয়েন্ট বংশদ্ভুত ব্যবহার করি: এল-বিএফজিএস বাস্তবায়ন যেমন ঠিক তত সহজ, যেহেতু এটির জন্য কেবলমাত্র উদ্দেশ্যমূলক ক্রিয়া এবং গ্রেডিয়েন্ট নির্দিষ্টকরণ প্রয়োজন; গ্রেডিয়েন্ট বংশোদ্ভুতের তুলনায় এর আরও ভাল বিপরীত হেসিয়ান আনুমানিকতা রয়েছে; এবং কারণ গ্রেডিয়েন্ট বংশোদ্ভূত শেখার হার টিউন করা প্রয়োজন।

  • কখনও কখনও আপনার কাছে প্রচুর পর্যবেক্ষণ (ডেটা পয়েন্ট) থাকে তবে আপনি অল্প সংখ্যক পর্যবেক্ষণ থেকে প্রায় শিখতে পারেন। যখন এটি হয়, আপনি স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভুতের মতো পর্যবেক্ষণের উপগ্রহগুলি ব্যবহার করে সেই চক্রটি "ব্যাচ পদ্ধতিগুলি" ব্যবহার করতে পারেন।


(+1) এটি লক্ষণীয় যে এল-বিএফজিএস প্যারামিটারের সংখ্যার ক্ষেত্রে গ্রেডিয়েন্ট বংশোদ্ভূত হিসাবে জটিলতার একই ক্রম। বিএফজিএস-এর ক্ষেত্রে এটি হয় না। সুতরাং এটি কেবলমাত্র L-BFGS এর সীমিত মেমরির অংশ নয় যা এটি আকর্ষণীয় করে তোলে।
ক্লিফ এবি

12

গ্রেডিয়েন্ট বংশোদ্ভূত দিকটি গণনা করার জন্য সস্তা এবং সেই দিকটিতে একটি লাইন অনুসন্ধান সম্পাদন করা একটি সর্বোত্তমতার দিকে অগ্রগতির আরও নির্ভরযোগ্য, অবিচল উত্স। সংক্ষেপে, গ্রেডিয়েন্ট বংশোদ্ভূত তুলনামূলকভাবে নির্ভরযোগ্য।

নিউটনের পদ্ধতিটি তুলনামূলকভাবে ব্যয়বহুল যে আপনাকে প্রথম পুনরাবৃত্তিতে হেসিয়ান গণনা করতে হবে। তারপরে, প্রতিটি পরবর্তী পুনরাবৃত্তির উপর, আপনি হয়েসিয়ানকে পুরোপুরি গণনা করতে পারেন (নিউটনের পদ্ধতি অনুসারে) বা কেবল পূর্ববর্তী পুনরাবৃত্তির হেসিয়ানকে (অর্ধ-নিউটন পদ্ধতিতে) "সস্তা" করতে পারেন যা সস্তা কিন্তু কম শক্ত ust

খুব ভাল আচরণের, বিশেষত একটি নিখুঁত চতুষ্কোণ কার্যের চরম ক্ষেত্রে নিউটনের পদ্ধতিটি পরিষ্কার বিজয়ী। যদি এটি পুরোপুরি চতুর্ভুজ হয়, নিউটনের পদ্ধতিটি একক পুনরাবৃত্তিতে রূপান্তরিত হবে।

খুব খারাপ আচরণের বিপরীতে চূড়ান্ত ক্ষেত্রে, গ্রেডিয়েন্ট বংশোদ্ভূততা জয়ের ঝোঁক করবে। এটি অনুসন্ধানের দিকটি বেছে নেবে, সেই দিকটি সন্ধান করবে এবং শেষ পর্যন্ত একটি ছোট-তবে উত্পাদনশীল পদক্ষেপ নেবে। বিপরীতে, নিউটনের পদ্ধতি এই ক্ষেত্রে ব্যর্থ হতে পারে, বিশেষত যদি আপনি কোয়াটি-নিউটনের প্রায় অনুমান ব্যবহার করার চেষ্টা করেন।

গ্রেডিয়েন্ট বংশোদ্ভূত এবং নিউটনের পদ্ধতির মধ্যে লেভেনবার্গ – মার্কোয়ার্ড অ্যালগরিদম (এলএমএ) এর মতো পদ্ধতি রয়েছে, যদিও আমি নামগুলি কিছুটা বিভ্রান্ত করে দেখেছি। বিষয়গুলি বিশৃঙ্খলাবদ্ধ এবং বিভ্রান্তিকর হয়ে উঠলে আরও গ্রেডিয়েন্ট-বংশোদ্ভূত সন্ধানটি ব্যবহার করা উচিত, যখন জিনিসগুলি আরও রৈখিক এবং নির্ভরযোগ্য হয়ে উঠছে তখন নিউটন-পদ্ধতি-অবহিত অনুসন্ধানে স্যুইচ করুন।


3
ছেলে, আপনাকে অবশ্যই নিউটন এবং কোসি-নিউটনের ভয়ানক বাস্তবায়ন ব্যবহার করতে হবে। যদি হয় কোনও ইতিবাচক নির্দিষ্ট হেসিয়ান দিয়ে ব্যবহার করে থাকে তবে তা হয় বিশ্বাস অঞ্চল ব্যবহার করুন বা negativeণাত্মক বক্রতার দিক (গুলি) বরাবর লাইন অনুসন্ধান করুন। যদি তা হয় তবে এগুলি খাড়া বংশোদ্ভূত (যেমন লাইন অনুসন্ধান বা বিশ্বাসের অঞ্চল সহ গ্রেডিয়েন্ট বংশোদ্ভূত) থেকে বেশি নির্ভরযোগ্য। সংক্ষেপে, গ্রেড ভিভেন্ট বংশোদ্ভূত সঠিকভাবে প্রয়োগ করা কোয়াসি-নিউটন পদ্ধতির চেয়ে অনেক কম নির্ভরযোগ্য, যা সঠিকভাবে প্রয়োগ করা নিউটন পদ্ধতির চেয়ে কম নির্ভরযোগ্য। পুনরাবৃত্তি প্রতি গণনার সময় এবং মেমরির প্রয়োজনীয়তাগুলি অবশ্য আলাদা বিষয়।
মার্ক এল স্টোন

4
আমি মনে করি আপনি পুরোপুরি চতুর্ভুজ ফাংশন বলতে চাইছেন। অর্থাৎ নিউটনের পদ্ধতিটি একক পুনরাবৃত্তিতে চতুর্ভুজীয় উদ্দেশ্যমূলক ক্রিয়ায় রূপান্তর করে, যার একটি রৈখিক গ্রেডিয়েন্ট রয়েছে।
এলিজাবেথ সান্টোরেলা

1
@ এলিজাবেথসেন্টোরেলা: হ্যাঁ, আপনি ঠিক বলেছেন! আমি উত্তর আপডেট।
নাট

2
1/2xTx

1
আমি আমার কেস করেছি। আপনি যদি খাড়া বংশোদ্ভূত ভাবতে চান তবে গ্রেডিয়েন্ট বংশোদ্ভূতটি দুর্দান্ত, বিশেষত খারাপ আচরণের ক্ষেত্রে এটি আপনার ব্যবসা। নিজেকে নক আউট।
মার্ক এল। স্টোন

7

বড় মাত্রার জন্য, Hessian সাধারণত সঞ্চয় এবং সমাধান করার জন্য ব্যয়বহুল Hd=g কোনও দিকের জন্য সমাধান করা ব্যয়বহুল হতে পারে। সমান্তরাল করা আরও কঠিন।

কোনও সমাধানের কাছাকাছি সময়ে, বা হেসিয়ান ধীরে ধীরে পরিবর্তিত হতে থাকলে নিউটনের পদ্ধতিটি ভালভাবে কাজ করে তবে অভিভাবনের অভাব এবং নিশ্চিততার অভাবকে মোকাবেলায় কিছু কৌশল প্রয়োজন to

একটি সঠিক সমাধানের চেয়ে প্রায়শই উন্নতি চাওয়া হয়, এক্ষেত্রে পদ্ধতির মতো নিউটন বা নিউটনের অতিরিক্ত ব্যয় সমর্থনযোগ্য নয়।

উপরোক্তকে প্রশমিত করার বিভিন্ন উপায় রয়েছে যেমন ভেরিয়েবল মেট্রিক বা ট্রাস্ট অঞ্চল পদ্ধতি।

পার্শ্ব নোট হিসাবে, অনেক সমস্যায় মূল সমস্যাটি স্কেলিং হয় এবং হেসিয়ান ব্যয় নির্বিশেষে দুর্দান্ত স্কেলিংয়ের তথ্য সরবরাহ করে। যদি কেউ হেসিয়ান অনুমান করতে পারে তবে এটি প্রায়শই পারফরম্যান্সকে যথেষ্ট উন্নত করতে পারে। কিছুটা হলেও, নিউটনের পদ্ধতিটি 'সেরা' স্কেলিং সরবরাহ করে যাতে এটি অ্যাফাইন ইনগ্রান্ট।


0

এসজিডির জন্য নিউটনের পদ্ধতিটি ব্যবহার সম্পর্কে অনেক অসুবিধা রয়েছে, বিশেষত:

  • এটির জন্য হেসিয়ান ম্যাট্রিক্স প্রয়োজন - এটি কীভাবে অনুমান করা যায় যেমন ন্যূনতম গ্রেডিয়েন্টগুলি থেকে যুক্তিসঙ্গত ব্যয়ে পর্যাপ্ত নির্ভুলতা সহ?

  • পূর্ণ হেসিয়ান অত্যন্ত ব্যয়বহুল - আমাদের বরং এর কিছুটা বিধিনিষেধের প্রয়োজন, যেমন একটি উপপথ (কোন উপগ্রহ?),

  • H1λ=0

  • নিউটনের পদ্ধতিটি সরাসরি শূন্য গ্রেডিয়েন্টের সাথে বন্ধুত্বের দিকে আকৃষ্ট করে ... যা এখানে সাধারণত সাধু হয়ে থাকে। পরিবর্তে তাদের কীভাবে তাড়ান? উদাহরণস্বরূপ স্যাডলেড ফ্রি নিউটন নেতিবাচক বক্ররেখার দিকনির্দেশকে বিপরীত করে, তবে এর জন্য আইজভ্যালুগুলির নিয়ন্ত্রণের লক্ষণগুলি প্রয়োজন,

  • অনলাইনে এটি করা ভাল হবে - একটি বিন্দুতে প্রচুর গণনা করার পরিবর্তে এটিকে আরও স্থানীয় তথ্যের শোষণ করে অনেক ছোট পদক্ষেপে ভাগ করার চেষ্টা করুন।

আমরা ছোট পদক্ষেপে প্রথম অর্ডার থেকে ২ য় অর্ডারে যেতে পারি, উদাহরণস্বরূপ গতি পদ্ধতিতে মাত্র তিনটি গড়ের আপডেট যোগ করা আমরা একসাথে এমএসই পদক্ষেপের আকারের চতুর পছন্দের জন্য তার দিকটিতে প্যারাবোলাকে ফিট করতে পারি ... একটি নিম্ন মাত্রিক সাবস্পেসে ২ য় অর্ডার মডেলিং আমরা একযোগে গ্রেডিয়েন্ট বংশোদ্ভূত করার জন্য অবশিষ্ট স্থানাঙ্কগুলি এখনও ব্যবহার করতে পারেন।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.