অ্যাডাম অপ্টিমাইজারটিকে তার হাইপার পরামিতিগুলির মানকে শক্ত বলে বিবেচনা করার কারণ কী?


24

আমি ডিপ লার্নিংয়ের জন্য অ্যাডাম অপটিমাইজার সম্পর্কে পড়ছিলাম এবং বেঙ্গিও, গুডফেলো এবং করভিলের ডিপ লার্নিংয়ের নতুন বইয়ের নীচের বাক্যটি পেলাম :

অ্যাডামকে সাধারণত হাইপার প্যারামিটারগুলির নির্বাচনের পক্ষে যথেষ্ট শক্তিশালী হিসাবে বিবেচনা করা হয়, যদিও শিক্ষার হারটি মাঝে মাঝে প্রস্তাবিত ডিফল্ট থেকে পরিবর্তন করা প্রয়োজন।

যদি এটি সত্য হয় তবে এটি একটি বড় বিষয় কারণ হাইপার প্যারামিটার অনুসন্ধানটি গভীর শিখন পদ্ধতির পরিসংখ্যানগত পারফরম্যান্সে (কমপক্ষে আমার অভিজ্ঞতায়) গুরুত্বপূর্ণ হতে পারে। সুতরাং, আমার প্রশ্ন হ'ল কেন অ্যাডাম রবস্ট এত গুরুত্বপূর্ণ পরামিতিগুলিতে? বিশেষ এবং β 2 ?β1β2

আমি অ্যাডাম কাগজটি পড়েছি এবং এটি কেন এই পরামিতিগুলির সাথে কাজ করে বা এর মজবুত তা নিয়ে কোনও ব্যাখ্যা দেয় না। তারা অন্য কোথাও এটিকে ন্যায্যতা দেয়?

এছাড়াও, আমি কাগজ পড়া, মনে হচ্ছে যে অধি পরামিতি সংখ্যা তারা চেষ্টা যেখানে খুব ছোট, জন্য শুধুমাত্র 2 এবং জন্য β 2 শুধুমাত্র 3. কিভাবে এই একটি পুঙ্খানুপুঙ্খ গবেষণামূলক অধ্যয়ন হতে পারে এটি শুধুমাত্র 2x3 অধি পরামিতি উপর কাজ করে ?β1β2


1
বইটির লেখকদের কে ইমেল প্রেরণ করুন যারা দাবি করেছেন। দাবিটি কিসের ভিত্তিতে রয়েছে তা তাদের জিজ্ঞাসা করুন।
মার্ক এল। স্টোন

1
@ মার্কএল.স্টোন তিনি কেবল বলেছিলেন যে তিনি এটি বলেছেন কারণ বিমূর্তি এটি বলেছে। খুব সম্ভবত একটি বিশ্বাসযোগ্য যুক্তি। সম্ভবত পরবর্তী সময় আমি প্রকৃত কাগজের লেখকদের ইমেল করব।
চার্লি পার্কার 1

7
এবং তাই স্ব-পদোন্নতি সত্য হয়ে ওঠে।
মার্ক এল। স্টোন

@ মার্কএল.স্টোন তার প্রতিরক্ষামূলক বক্তব্য, তিনি সঠিকভাবে উত্তর দিতে ব্যস্ত থাকতে পারে এবং আমি 3 জন লেখকের মধ্যে কেবলমাত্র যোগাযোগ করেছি। হতে পারে আমি অন্যের সাথে যোগাযোগ করতে পারি তবে আমি নিশ্চিত নই যে তারা প্রদত্ত (কমপক্ষে) একজন প্রফেসর জবাব দেবেন কিনা। ডিএল-এর হাইপ দিয়ে আমি বাজি ধরি তিনি প্রতিদিন 300 ই-মেইল পান।
চার্লি পার্কার

7
এখন বইটি শেষ হয়ে গেছে, অ্যাডাম লেখকরা তাদের অ্যালগোরিদম কত দুর্দান্ত তা নিশ্চিত করেছেন। '89 বে এরিয়া ভূমিকম্পের কথা মনে করিয়ে দেয়। নিউজ রেডিও স্টেশন হাইওয়ে ধসের ঘটনায় # নিহতদের নিখুঁত প্রতিবেদন তৈরি করেছে - জানিয়েছে যে তারা গভর্নরের কার্যালয়ের কাছ থেকে নিশ্চয়তা চাইছেন। তারপরে তারা ফোনে রাজ্যপালকে জিজ্ঞাসা করলেন এবং জিজ্ঞাসা করলেন তিনি কী # মৃত্যুর বিষয়টি নিশ্চিত করতে পারেন? তিনি বললেন যা সে শুনেছিল। রেডিও স্টেশন তখন জানিয়েছিল যে তাদের এখন গভর্নরের কাছ থেকে নিশ্চয়তা রয়েছে। দেখা যাচ্ছে যে গভর্নর বলতে বোঝাতে চেয়েছিলেন যে তিনি রেডিও স্টেশনটিতে এটি শুনেছিলেন। সুতরাং, বিজ্ঞপ্তি নিশ্চিতকরণ।
মার্ক এল। স্টোন

উত্তর:


7

দাবি সম্পর্কিত প্রমাণের ক্ষেত্রে, আমি বিশ্বাস করি যে দাবিটি সমর্থনকারী একমাত্র প্রমাণগুলি তাদের কাগজে 4 নম্বরে পাওয়া যাবে । তারা স্বতন্ত্র মূল্যবোধ একটি সীমার অধীনে চূড়ান্ত ফলাফল দেখান , β 2 এবং αβ1β2α

ব্যক্তিগতভাবে, আমি তাদের যুক্তিগুলি বিশ্বাসযোগ্য মনে করি না , বিশেষত কারণ তারা বিভিন্ন সমস্যায় ফলাফল উপস্থাপন করে না। সঙ্গে বলেন যে, আমি মনে রাখবেন যে, আমি সমস্যার বিভিন্ন জন্য ব্যবহার আদম আছে, এবং আমার ব্যক্তিগত গবেষনার যে ডিফল্ট মান হল এবং β 2 না আশ্চর্যজনক নির্ভরযোগ্য বলে মনে হচ্ছে, যদিও পরিবর্তন ঘটানোর একটি ভাল চুক্তি α প্রয়োজন।β1β2 α


5

β1β2

এটি স্টক ভ্যানিলা স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত সাথে বিশাল বিপরীতে যেখানে:

  • শিক্ষার হারগুলি প্রতিটি প্যারামিটারে নয়, তবে একটি একক, বিশ্বব্যাপী শিক্ষার হার রয়েছে, যা সমস্ত পরামিতি জুড়ে অনবদ্য প্রয়োগ করা হয়
    • (উপায় দ্বারা, জালগুলিতে প্রেরণের আগে ডেটা প্রায়শই সাদা, স্বাভাবিককরণের জন্য, আদর্শ প্রতি-পরামিতি ওজনকে একই ধরণের রাখার চেষ্টা করা হয়)
  • প্রদত্ত শিক্ষার হার হ'ল সঠিক শিক্ষার হার ব্যবহৃত হয় এবং সময়ের সাথে মানিয়ে যায় না

অভিযোজিত শিক্ষার হারের সাথে আদম একমাত্র অনুকূলীকরণকারী নয়। অ্যাডাম পেপারে যেমন বলা হয়েছে, এটি অ্যাডগ্রাড এবং আরএমএসপ্রপের সাথে অত্যন্ত সম্পর্কিত, যা হাইপারপ্যারামিটারেও অত্যন্ত সংবেদনশীল। বিশেষত, আরএমএসপ্রপ বেশ সুন্দরভাবে কাজ করে।

তবে আদম সাধারণভাবে সেরা is খুব অল্প ব্যতিক্রমের সাথে আদম আপনার যা ইচ্ছা তাই করবে :)

কয়েকটি মোটামুটি প্যাথলজিকাল কেস রয়েছে যেখানে অ্যাডাম কাজ করবে না, বিশেষত কয়েকটি খুব অ-স্টেশনিয়াল বিতরণের জন্য। এই ক্ষেত্রে, আরএমএসপ্রপ একটি দুর্দান্ত স্ট্যান্ডবাই বিকল্প। তবে সাধারণত বলতে গেলে, বেশিরভাগ অ-প্যাথলজিকাল ক্ষেত্রে, অ্যাডাম অত্যন্ত ভাল কাজ করে।


1
β1,β2

হ্যাঁ, যদি আপনি বলতে চান, 'কেন এখানে গভীর গবেষণা করার কোনও সুযোগ আছে?', ভাল ... হতে পারে।
হিউ পারকিনস

2
এটি কোনও "গভীর প্রশ্ন" নয়। এটি কি মনে হয় কাগজের অন্যতম গুরুত্বপূর্ণ বিষয়, না? পুরো বিষয়টি হ'ল এটি "নিজেই" জিনিসগুলি করে তবে তারপরে এই অন্যান্য হাইপারপ্যারামিটারগুলি রয়েছে যা যাদুকরীভাবে দৃ rob় বলে মনে হয়। আমার কাছে সমস্যাটি রয়েছে। এ্যাডামের বিষয়টি ভুল বুঝে না উঠলে এটি আমার কাছে কাগজের মূল সাথে সম্পর্কিত বলে মনে হয়।
চার্লি পার্কার 16

"কয়েকটি বেশ কয়েকটি প্যাথলজিকাল কেস রয়েছে যেখানে অ্যাডাম কাজ করবে না, বিশেষত কিছু খুব অ-স্থিতিশীল বিতরণের জন্য।" <- এখানে কোন রেফারেন্স?
মিমোরালিয়া

0

অ্যাডএএম সূত্রগুলির দিকে তাকালে এটি কিছুটা বিস্ময়কর বলে মনে হচ্ছে যে প্রচুর পরিমাণ ব্যাচের পুনরাবৃত্তির পরে (~ 400 কে বলুন), মূল ত্রুটির ভিত্তিতে গ্রেডিয়েন্ট নিজেই অভিনয় করে the গৃহীত পদক্ষেপে কোনও প্রকৃত ভূমিকা নেই যা আশা করে বলে মনে হয় সম্পর্কিত সাইন ইন শেখার হার কনফিগারেশন প্যারামিটার।
সম্ভবত এডিএএম প্রথম পুনরাবৃত্তি / মহাকাশগুলির সময় সাধারণ এসজিডি এর চেয়ে ওজন অভিযোজনকে আরও ভালভাবে নিয়ন্ত্রণ করে তবে আপডেটটি এগিয়ে যাওয়ার ফলে কিছুটা নিরীহ (?) কিছুটা হ্রাস পেয়েছে যা আসলে কেন কাঙ্ক্ষিত এবং / বা ভালভাবে কাজ করার ঝোঁক রয়েছে?


আসলে মনে হচ্ছে ত্রুটি ভিত্তিক গ্রেডিয়েন্ট মাত্রা নিজেই এমনকি কোনও ভূমিকা শুরু করে না এমনকি শুরু করে। প্রশ্ন হল এ জাতীয়করণ কেন ভালভাবে কাজ করছে এবং এটি জিডি অন্তর্দৃষ্টি নির্দেশক ডিএল এবং অন্যান্য সাধারণ শিক্ষার মডেলগুলির বিষয়ে কী বোঝায়?
ড্যানি রোজেন
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.