ডিপ লার্নিংয়ের জন্য অ্যাডাম অপ্টিমাইজারের জন্য পক্ষপাত সংশোধন শব্দটি অন্তর্ভুক্ত করা কেন গুরুত্বপূর্ণ?


15

আমি ডিপ লার্নিংয়ের জন্য অ্যাডাম অপ্টিমাইজার সম্পর্কে পড়ছিলাম এবং নীচের বাক্যটি পেরিয়েছিলাম ডিগ্র লার্নিং বাই বেগনিও, গুডফেলো এবং কোর্টভিলে-র নীচে:

আদম প্রথম অর্ডার মুহুর্তের (গতিবেগের মেয়াদ) এবং (নিরীক্ষিত) দ্বিতীয়-ক্রমের মুহুর্তগুলির অনুমানের সংশোধন অন্তর্ভুক্ত করার জন্য উত্সে তাদের সূচনা হিসাবে বিবেচনা করে।

দেখে মনে হচ্ছে যে এই পক্ষপাত সংশোধন শর্তাদি অন্তর্ভুক্ত করার মূল কারণটি হ'ল এটি কোনওভাবে এবং এর আরম্ভের পক্ষপাতটিকে সরিয়ে দেয় ।mt=0vt=0

  • আমি এর অর্থ 100% নিশ্চিত নই তবে এটি আমার কাছে মনে হয় এটির সম্ভবত অর্থ হ'ল 1 ম এবং 2 য় মুহুর্তটি শূন্য থেকে শুরু হয় এবং কোনওভাবে শূন্য থেকে একে শুরু করে প্রশিক্ষণের জন্য অন্যায় (বা দরকারী) উপায়ে শূন্যের কাছাকাছি মানগুলি দেয় ?
  • যদিও আমি এটি জানতে চাই যে এর অর্থটি আরও কিছুটা সুনির্দিষ্টভাবে বোঝা যাচ্ছে এবং এটি কীভাবে শিক্ষার ক্ষতি করে। বিশেষত, অপটিমাইজেশনের ক্ষেত্রে অপ্ট-বাইসিং অপ্টিমাইজারের কী কী সুবিধা রয়েছে?
  • এটি কীভাবে গভীর শেখার মডেলগুলি প্রশিক্ষণে সহায়তা করে?
  • এছাড়াও, যখন এটি পক্ষপাতহীন তখন এর অর্থ কী? নিরপেক্ষ স্ট্যান্ডার্ড বিচ্যুতি বলতে কী বোঝায় আমি তা জানি তবে এই প্রসঙ্গে এটির অর্থ কী তা আমার কাছে স্পষ্ট নয়।
  • পক্ষপাতিত্ব সংশোধন আসলেই কি খুব বড় বিষয় বা অ্যাডাম অপটিমাইজার পেপারে কোনও কিছুর চাপ বেশি?

ঠিক তাই লোকেরা জানেন যে আমি মূল কাগজটি বোঝার জন্য সত্যই চেষ্টা করেছি কিন্তু আমি মূল কাগজটি পড়ার এবং পুনরায় পড়ার খুব কম চেষ্টা করেছি। আমি অনুমান করি যে এখানে কিছু প্রশ্নের উত্তর দেওয়া হতে পারে তবে আমি উত্তরগুলি বিশ্লেষণ করতে পারছি না।


2
লিঙ্ক: arxiv.org/pdf/1412.6980v8.pdf 1 ম এবং 2 য় মুহুর্তের গ্রেডিয়েন্ট অনুমানগুলি চলমান গড়ের মাধ্যমে আপডেট করা হয় এবং উভয় অনুমান 4 শূন্যের সাথে শুরু হয়, সুতরাং সেই প্রাথমিক মানগুলির জন্য যা সত্য মানের মান শূন্য নয়, ফলাফলগুলিকে পক্ষপাতিত্ব করবে , কারণ শূন্যের প্রাথমিক অনুমান কেবল ধীরে ধীরে মারা যায়। আমি যা বুঝতে পারি না তা কেন প্রাথমিক পয়েন্টে গ্রেডিয়েন্ট এই জিনিসগুলির প্রাথমিক মানগুলির জন্য ব্যবহার করা হয় না এবং তারপরে প্রথম প্যারামিটার আপডেট। তারপরে প্রাথমিক শূন্য মানগুলির দ্বারা কোনও দূষণ হবে না, যা পূর্বাবস্থায় ফিরিয়ে আনতে হবে o সুতরাং পক্ষপাত সংশোধনের প্রয়োজন হবে না।
মার্ক এল স্টোন

1
সুতরাং এটি প্রদর্শিত হয় যে প্রাথমিক পুনরাবৃত্তির জন্য বিশেষ কোড না রেখে লেখকগণ পক্ষপাত কী হবে তা প্রবর্তন করে এবং তারপরে এটি পূর্বাবস্থায় রেখে গণিতের সমতুল্য জিনিস করার সিদ্ধান্ত নিয়েছেন। এটি অযৌক্তিক যোগ করে, যদিও দ্রুত, সমস্ত পুনরাবৃত্তিতে গণনা। বিটি এটি করে, তারা কোডের একটি বিশুদ্ধতা বজায় রেখেছে যা সমস্ত পুনরাবৃত্তিতে একই দেখায়। আমি পরিবর্তে প্রথম গ্রেডিয়েন্ট মূল্যায়ন দিয়ে সবে শুরু করতাম এবং গ্রেডিয়েন্ট মুহুর্তের আপডেট সূত্রটি কেবল ২ য় পুনরাবৃত্তিতে শুরু করা উচিত।
মার্ক এল। স্টোন

@ মার্কএল.স্টোন লেখক পক্ষপাতিত্ব সংশোধনকে এতটা জোর দিয়েছিলেন যে আমার কাছে মনে হয়েছিল যে উপন্যাসটি বা তাদের গবেষণাপত্রে গুরুত্বপূর্ণ বিষয়টি ছিল। সুতরাং তারা কি ঠিক "পক্ষপাত সংশোধন" করতে পারত না এবং একই অ্যালগরিদম থাকতে পারে? যদি এটি সত্য হয় তবে অ্যাডাম কেন এমন গুরুত্বপূর্ণ অপটিমাইজার বা বড় বিষয় কী তা আমি দেখতে ব্যর্থ। আমি সবসময় ভাবতাম এটি পক্ষপাত সংশোধন।
চার্লি পার্কার

4
তারা একটি পক্ষপাতিত্ব পরিচয় করিয়ে দেয় এবং তারপরে এটি সংশোধন করে দেয়, কোনও উপযুক্ত কারণে আমার কাছে দৃশ্যমান নয়। এটি 2 দিয়ে গুণ করার মতো (ওহ আমার, ফলাফল পক্ষপাতদুষ্ট) এবং তারপরে এটি "সংশোধন" করতে 2 দ্বারা বিভক্ত হয়ে যায়। পক্ষপাতদর্শন পরিচয় এবং অপসারণ সহ পুরো জিনিসটি একটি অপ্রয়োজনীয় সিডশোর মতো মনে হয়। হতে পারে কাগজটি এটি না করে যথেষ্ট দীর্ঘ ছিল না, তাই তারা এটি আরও দীর্ঘ করতে এই স্পিল যুক্ত করেছিল :) অ্যাডামের গুণাগুণ থাকতে পারে তবে তারা আমার প্রস্তাব অনুসারে এটি করত। আমি এখানে এসে লেখকদের এটির ব্যাখ্যা করতে চাই। হতে পারে আমি কিছু সূক্ষ্ম পয়েন্ট বা কিছু ভুল বোঝাবুঝি করছি।
মার্ক এল স্টোন

উত্তর:


17

পক্ষপাতদুটি সংশোধন না করার সমস্যা
কাগজ অনুসারে

বিচ্ছুরণ গ্রেডিয়েন্টগুলির ক্ষেত্রে, দ্বিতীয় মুহুর্তের একটি নির্ভরযোগ্য অনুমানের জন্য β2 এর একটি ছোট মান বেছে নিয়ে অনেকগুলি গ্রেডিয়েন্টের উপরে গড়ে গড়ে তোলা দরকার; তবে এটি ঠিক ছোট -2 এর ক্ষেত্রে এটি যেখানে প্রাথমিককরণ পক্ষপাত সংশোধনের অভাব প্রাথমিক পদক্ষেপগুলির দিকে পরিচালিত করবে যা অনেক বড়।

এখানে চিত্র বর্ণনা লিখুন

সাধারণত অনুশীলনে অনেক 1 এর কাছাকাছি চেয়ে সেট করা হয় (যেমন লেখক দ্বারা প্রস্তাবিত , ), আপডেট, যাতে কোফিসিয়েন্টস তুলনায় অনেক ছোট ।β2β1β2=0.999β1=0.91-β2=0.0011-β1=0.1

মি1=0.1টিবনাম1=0.001টি2মি1/(বনাম1+ +ε)

মি1^=1বনাম1^=12মিটি^/(বনামটি^+ +ε)β1β2


মি0মিটি=βমিটি-1+ +(1-β)টিমি0

মি1=βমি0+ +(1-β)টিβমি0মি1(1-β)মি1^=(মি1-βমি0)/(1-β)মি0=0মিটি^=মিটি/(1-βটি)


হিসাবে মার্ক এল স্টোন ভাল মন্তব্য করেছেন

এটি 2 দিয়ে গুণ করার মতো (ওহ আমার, ফলাফল পক্ষপাতদুষ্ট) এবং তারপরে এটি "সংশোধন" করতে 2 দ্বারা বিভক্ত হয়ে যায়।

একরকম এটি ঠিক সমতুল্য নয়

প্রাথমিক পয়েন্টে গ্রেডিয়েন্টটি এই জিনিসগুলির প্রাথমিক মানগুলির জন্য ব্যবহৃত হয় এবং তারপরে প্রথম প্যারামিটার আপডেট হয়

(অবশ্যই এটি আপডেটের নিয়ম পরিবর্তন করে (একই সাথে উত্তরের আপডেটটি দেখুন) একই রূপে রূপান্তরিত হতে পারে এবং আমি বিশ্বাস করি যে এই লাইনটি মূলত পক্ষপাতটি প্রবর্তনের অযৌক্তিকতা দেখানো, তবে সম্ভবত এটির পার্থক্যটি লক্ষ্য করার মতো))

উদাহরণস্বরূপ, সময় 2 এ সংশোধন করা প্রথম মুহুর্ত

মি2^=β(1-β)1+ +(1-β)21-β2=β1+ +2β+ +1

1

মি2=β1+ +(1-β)2
1

পক্ষপাতিত্ব সংশোধন করা কি সত্যিই একটি বড় চুক্তি
যেহেতু এটি কেবল প্রশিক্ষণের প্রথম কয়েকটি ধাপকেই প্রভাবিত করে, তাই এটি অনেক বড় সমস্যা বলে মনে হয় না, অনেক জনপ্রিয় ফ্রেমওয়ার্কগুলিতে (যেমন কেরাস , ক্যাফে ) কেবলমাত্র পক্ষপাতদুষ্ট অনুমান কার্যকর করা হয়।

ε


মি^টি

মি^টি=βটি-11+ +βটি-22+ ++ +টিβটি-1+ +βটি-2+ ++ +1

মি11

মিটিβমিটি+ +টি
মি^টি(1-β)মিটি1-βটি

সুতরাং এটি সম্ভবত পক্ষপাতের শর্তটি প্রবর্তন করা এবং এটি সংশোধন না করেই করা যেতে পারে। আমি মনে করি কাগজটি এটিকে অন্যান্য অ্যালগরিদমের সাথে তুলনা করার সুবিধার জন্য (যেমন, আরএমএসপ্রপ) পক্ষপাত-সংশোধন ফর্মটিতে রেখেছিল।


1
আপনি কি প্রশ্নে আমার দ্বিতীয় মন্তব্যের সাথে একমত? আমার কাছে, এটি নীচের লাইন। 2 দ্বারা গুণমান এবং ভাগ করার বিষয়টিকে কেবল "সহজ বোঝা" উপমা বলে মনে করা হয়েছিল, হাতে থাকা বিষয়টিতে ব্যবহৃত গণিতটি নয়। যদি অন্য কাগজপত্রগুলি আমি না দেখে থাকি তবে এটি একই পদ্ধতি দ্বারা একটি পক্ষপাতিত্ব প্রবর্তন করে, যেটি অ্যাডামের ক্ষেত্রে সম্পূর্ণরূপে এড়ানো সম্ভব বলে মনে হয়, তবে এটি সংশোধন করে না, তবে এটি কেবল সম্পূর্ণ বোকা (যদি না কোনওভাবে পক্ষপাত না হয়) অ্যালগরিদমের পারফরম্যান্সে সহায়তা করেছে)।
মার্ক এল। স্টোন

@ মার্কএল.স্টোন হ্যাঁ! আসলে আমি এটিকে উন্নত করেছিলাম, দুঃখিত আমার ইংরেজি সম্পর্কে। এবং আমি মনে করি যে অ্যালগরিদম যে পক্ষপাতটি সংশোধন করে না তা হ'ল আরএমএসপ্রপ, তবে অ্যাডামের বিপরীতে আরএমএসপ্রপ পক্ষপাতিত্বের সাথে সূক্ষ্মভাবে কাজ করে।
দন্টলু

@ ডন্টলু আপনার উত্তরটি সম্বোধন করে মার্ক এল। স্টোনর মন্তব্য কেন পক্ষপাত সংশোধনকে অতিরিক্তহীন বলে মনে হচ্ছে? (যা আমি মনে করি এটি বেশ গুরুত্বপূর্ণ, মূল কাগজটি যা বলেছে তা প্যারাফ্রেসিংয়ের চেয়েও বেশি)।
চার্লি পার্কার

@ চর্লিপার্কার আপনার অর্থ দাঁড়ায় কেন পক্ষপাত সংশোধন অতিমাত্রায় বা লেখক কেন এটিকে অতিমাত্রায় দেখায়?
dontloo

@ দনতলু আমি মনে করি না যে লেখকরা এটিকে অতিমাত্রায় পরিণত করেন। আমি ভেবেছিলাম তাদের সত্যই এটির প্রয়োজন ছিল (তাদের নির্দিষ্ট শর্তাবলী দিয়ে)। তবে, আমি ভেবেছিলাম যে মার্কের পরামর্শ অনুযায়ী এটি প্রয়োজনীয় ছিল না। আমি এখনই মন্তব্য বিভাগে আমার প্রশ্নটি অনুমান করি যদি তাদের সত্যিকারের সংশোধন শব্দটির প্রয়োজন হয়।
চার্লি পার্কার
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.