গতিবেগ ভিত্তিক গ্রেডিয়েন্ট বংশোদ্ভূত এবং নেস্টারভের ত্বরণী গ্রেডিয়েন্ট বংশোদ্ভূত মধ্যবর্তী পার্থক্য কী?


48

সুতরাং গতিবেগ ভিত্তিক গ্রেডিয়েন্ট বংশোদ্ভূত নিম্নলিখিত হিসাবে কাজ করে:

বনাম=গুলিমিমিএনটিতোমার দর্শন লগ করামি*মি-R*

যেখানে পূর্ববর্তী ওজন আপডেট, এবং পরামিতি থেকে সম্মান সঙ্গে বর্তমান গ্রেডিয়েন্ট হয় , শেখার হার, এবং একটি ধ্রুবক।মিপিRগুলিমিমিএনটিতোমার দর্শন লগ করামি

পিএনW=পি+ +বনাম=পি+ +গুলিমিমিএনটিতোমার দর্শন লগ করামি*মি-R*

এবং নেস্টারভের ত্বরণী গ্রেডিয়েন্ট বংশোদ্ভূত নিম্নরূপে কাজ করে:

পিএনW=পি+ +গুলিমিমিএনটিতোমার দর্শন লগ করামি*বনাম-R*

যা এর সমান:

পিএনW=পি+ +গুলিমিমিএনটিতোমার দর্শন লগ করামি*(গুলিমিমিএনটিতোমার দর্শন লগ করামি*মি-R*)-R*

অথবা

পিএনW=পি+ +গুলিমিমিএনটিতোমার দর্শন লগ করামি2*মি-(1+ +গুলিমিমিএনটিতোমার দর্শন লগ করামি)*R*

উত্স: https://github.com/fchollet/keras/blob/master/keras/optimizer.py

সুতরাং আমার কাছে এটি দেখে মনে হচ্ছে নেস্টারভের গতিযুক্ত গ্রেডিয়েন্ট বংশোদ্ভূত মাত্রাতিরিক্ত ওজন পরিবর্তনের মেয়াদ এম (প্লেইন পুরাতন গতির তুলনায়) এর চেয়ে বেশি পরিমাণে ওজন দেয় এই ব্যাখ্যাটি কি সঠিক?


7
আপনাকে টাইপ করতে বলছে খুব বেশি জিজ্ঞাসা করছে? LATEএক্স
রডরিগো ডি আজেভেদো

উত্তর:


35

নেস্টারভের গতি সম্পর্কে আরেচের উত্তর সঠিক, তবে কোডটি মূলত একই জিনিসটি করে। সুতরাং এই ক্ষেত্রে নেস্টারভ পদ্ধতিটি বেশি ওজন দেয় এবং কম ওজন দেয় ।vlrgv

কেন Keras 'বাস্তবায়ন সঠিক চিত্রিত করার জন্য, আমি জিওফ্রে Hinton এর ধার করব উদাহরণ
এখানে চিত্র বর্ণনা লিখুন

নেস্টেরভ পদ্ধতি "জুয়া-> সংশোধন" পদ্ধতির গ্রহণ করে। বাদামী ভেক্টরটি (জুয়া / জাম্প), লাল ভেক্টরটি (সংশোধন), এবং সবুজ ভেক্টর হ'ল (যেখানে আমাদের আসলে স্থানান্তরিত হওয়া উচিত)। গ্রেডিয়েন্ট ফাংশন।
w = w + v m v - l r ( w + m v ) m v - l r ( ডাব্লু + মি ভি ) ( )v=mvlr(W+ +মিবনাম)
W'=W+ +বনাম'
মিবনাম-R(W+ +মিবনাম)mবনাম-R(W+ +মিবনাম)()

কোডটি অন্যরকম দেখাচ্ছে কারণ এটি সবুজ ভেক্টরের পরিবর্তে বাদামী ভেক্টর দিয়ে চলেছে , কারণ নেস্টারভ পদ্ধতিতে কেবল পরিবর্তে মূল্যায়ন প্রয়োজন । সুতরাং প্রতিটি পদক্ষেপে আমরা চাই( ডাব্লু )(W+ +মিবনাম)=:(W)

  1. আমরা যেখানে ছিলাম সেখানে ফিরে যান(10)
  2. আমাদের যেখানে থাকতে হবে সেখানে সবুজ ভেক্টরটি অনুসরণ করুন(02)
  3. অন্য জুয়া তৈরি করুন(23)

সংক্ষিপ্ত জন্য কেরাসের কোড লিখিত হ'ল , এবং আমরা কিছু গণিত করিp=p+m(mvlrg)lrg

p=pmv+mv+m(mvlrg)lrg=pmv+mvlrg+m(mvlrg)=pmv+(mvlrg)+m(mvlrg)

এবং এটি । প্রকৃতপক্ষে মূল কোডটি একটি ছোট্ট পথ নেয় takes । 1 2 31023123

প্রকৃত আনুমানিক মান (সবুজ ভেক্টর) হওয়া উচিত যা রূপান্তরগুলি শিখার সময় কাছাকাছি হওয়া উচিত ।ppmvp


2
@ ইয়উকাইচাও এই চেষ্টা করুন youtube.com/watch?v=LdkkZglLZ0Q
দন্টলু

13

আমার কাছে মনে হয় যে ওপি-র প্রশ্নের উত্তর ইতিমধ্যে ছিল, তবে আমি গতিময় এবং ক্লাসিকাল মোমেন্টাম (সিএম) এবং নেস্টারভের ত্বরণী গ্রেডিয়েন্ট (এনএজি) মধ্যে পার্থক্য সম্পর্কে আরও একটি (আশাবাদী স্বজ্ঞাত) ব্যাখ্যা দেওয়ার চেষ্টা করব would


tl; dr
ঠিক শেষে ছবিটি এড়িয়ে যান।
এনএজি_বলের যুক্তি আরেকটি গুরুত্বপূর্ণ অঙ্গ, তবে আমি নিশ্চিত নই যে বাকী সমস্তগুলি ছাড়া এটি বোঝা সহজ হবে।



ন্যূনতম একটি ফাংশন জন্য প্যারামিটার স্পেসে পরের ভেক্টর- বেছে নেওয়ার জন্য সিএম এবং এনএজি উভয় পদ্ধতি ।θ(θ)

অন্যান্য খবরে, ইদানীং এই দুটি বুনো সংবেদনশীল বল হাজির হয়েছিল:
CM_ball NAG_ball

দেখা যাচ্ছে (বলের পর্যবেক্ষণ আচরণ অনুসারে, এবং কাগজ অনুসারে গভীর শিক্ষার সূচনা ও গতির গুরুত্ব সম্পর্কে , যা বিভাগ ২-এ সিএম এবং এনএজি উভয়কে বর্ণনা করে) প্রতিটি বল এই পদ্ধতির একটির মতোই আচরণ করে , এবং তাই আমরা তাদের "সিএম_বল" এবং "এনএজি_বল" বলব:
(এনএজি_বল হেসেছেন, কারণ তিনি সম্প্রতি লেকচার 6 সি- এর শেষ পর্যবেক্ষণ করেছেন - নীতিশ শ্রীবাস্তব এবং কেভিন সোয়ারস্কির সাথে জেফ্রি হিন্টনের গতিবেগ পদ্ধতি , এবং এইভাবে এটি আগের চেয়ে বেশি বিশ্বাস করে তার আচরণটি সর্বনিম্ন দ্রুত সন্ধান করে)

বলগুলি এখানে আচরণ করে:

  • সাধারণ বলের মতো ঘূর্ণায়মান পরিবর্তে তারা প্যারামিটার স্পেসের পয়েন্টগুলির মধ্যে লাফ দেয়।
    যাক একটি বল এর হতে প্যারামিটার স্থান -th অবস্থান, এবং দিন বল এর হতে -th লাফ। তারপরে প্যারামিটার স্পেসে পয়েন্টগুলির মধ্যে জাম্পিং দ্বারা বর্ণনা করা যেতে পারে ।θটিটিবনামটিটিθটি=θটি-1+ +বনামটি
  • তারা কেবল রোলের পরিবর্তে ঝাঁপ দেয় না, তবে তাদের জাম্পগুলিও বিশেষ: প্রতিটি লাফ আসলে একটি ডাবল জাম্প, যা দুটি জাম্পের রচনা: বনামটি
    • বনামটি-1
      বনামটি-1
      μ0.9μ<1μবনামটি-1
      μ


    • εε>0
      ε
      -ε
  • বনামটি=μবনামটি-1-ε

  • বনামটি=μবনামটি-1-ε(θটি-1)

  • বনামটি=μবনামটি-1-ε(θটি-1+ +μবনামটি-1)

    এনএজি_বলের যুক্তি

    • প্রথমে যে লাফটি আসুক না কেন, আমার মোমেন্টাম জাম্প একই রকম হবে।
      সুতরাং আমার পরিস্থিতিটি এমনভাবে বিবেচনা করা উচিত যেন আমি ইতিমধ্যে আমার মোমেন্টাম জাম্প তৈরি করেছি এবং আমি আমার স্লোপ জাম্প তৈরি করতে চলেছি।
    • এখন, আমার স্লোপ জাম্পটি ধারণাগতভাবে এখান থেকে শুরু হতে চলেছে, তবে আমার স্লোপ জাম্পটি মোমেন্টাম জাম্পের আগে যেমন শুরু হয়েছিল, বা এটি এখানেই শুরু হয়েছিল তখন কী হবে তা গণনা করব কিনা তা আমি বেছে নিতে পারি।
    • θθθ



θ
(θ)7

সিএম_বল বনাম এনএজি_বল উদাহরণ


পরিশিষ্ট 1 - এনএজি_বলের যুক্তির একটি প্রদর্শনী

অ্যালেক র‌্যাডফোর্ডের এই মন্ত্রমুগ্ধ গিফটিতে , আপনি এনএজি সিএম (জিআইফের "গতিবেগ") এর চেয়ে তর্কসাপেক্ষভাবে আরও ভাল পারফর্ম করতে দেখবেন।
(ন্যূনতম যেখানে তারকা, এবং রেখাচিত্র হয় কনট্যুর লাইন । কনট্যুর লাইন সম্পর্কে একটি ব্যাখ্যার জন্য এবং কেন তারা গ্রেডিয়েন্ট ঋজু হয়, ভিডিও দেখতে 1 এবং 2 কাল্পনিক দ্বারা 3Blue1Brown ।)

প্রধানমন্ত্রীর চেয়ে বেশি এনএজি (মুহুর্ত)

একটি নির্দিষ্ট মুহুর্তের বিশ্লেষণ NAG_ball এর যুক্তি প্রদর্শন করে:

একটি নির্দিষ্ট মুহুর্তে সিএম বনাম এনএজি

  • (দীর্ঘ) বেগুনি তীরটি গতিবেগের উপ-পদক্ষেপ।
  • স্বচ্ছ লাল তীরটি গ্রেডিয়েন্ট সাব-স্টেপ হয় যদি এটি গতিবেগের উপ-পদক্ষেপের আগে শুরু হয়।
  • কালো তীরটি গ্রেডিয়েন্ট সাব-স্টেপ হয় যদি এটি গতিবেগের উপ-পদক্ষেপের পরে শুরু হয়।
  • মুখ্যমন্ত্রী গা the় লাল তীরের টার্গেটে শেষ হবেন।
  • কালো তীরের টার্গেটে নাগ শেষ হবে।

পরিশিষ্ট 2 - আমি তৈরি জিনিস / শর্তাদি (স্বজ্ঞাততার জন্য)

  • CM_ball
  • NAG_ball
  • ডাবল জাম্প
  • মোমেন্টাম জাম্প
  • বাতাসের সাথে ঘর্ষণের কারণে মুহুর্তটি হেরে গেছে
  • Opeাল লাফ
  • একটি বল আগ্রহী
  • আমি গতকাল বল পর্যবেক্ষণ করছি

পরিশিষ্ট 3 - পদগুলি আমি তৈরি করি নি


1
"বলগুলি কীভাবে আচরণ করে তা এখানে: ..." থেকে "আপনাকে θ থেকে সর্বনিম্ন (অপেক্ষাকৃত সঠিক মাত্রার সাথে) দিকে নির্দেশ করতে অংশটি পেয়েছি। পার্থক্য ব্যাখ্যা হিসাবে দুর্দান্ত।
কবি মওদিত

12

আমি তাই মনে করি না.

নেস্টেরভ মোমেন্টাম (ওরফে নেস্টেরভ এক্সিল্রেটেড গ্রেডিয়েন্ট) বৈশিষ্ট্যগুলির উদাহরণ রয়েছে, উদাহরণস্বরূপ, সটসকেভার, মার্টেনস এট আল। "গভীর শিক্ষার ক্ষেত্রে আরম্ভকরণ এবং গতির গুরুত্ব সম্পর্কে" 2013

মূল পার্থক্যটি হ'ল ধ্রুপদী গতিবেগে আপনি প্রথমে আপনার বেগটি সংশোধন করেন এবং তারপরে সেই বেগ অনুসারে একটি বড় পদক্ষেপ করেন (এবং তারপরে পুনরাবৃত্তি করুন), তবে নেস্টারভের গতিবেগে আপনি প্রথমে বেগের দিকনির্দেশে একটি পদক্ষেপ তৈরি করেন এবং তারপরে একটি বেগের ভেক্টরকে সংশোধন করেন নতুন অবস্থানে (তারপরে পুনরাবৃত্তি করুন)।

ক্লাসিকাল গতিবেগ:

vW(t+1) = momentum.*Vw(t) - scaling .* gradient_F( W(t) )
W(t+1) = W(t) + vW(t+1)

যদিও নেস্টারভের গতিবেগ এটি:

vW(t+1) = momentum.*Vw(t) - scaling .* gradient_F( W(t) + momentum.*vW(t) )
W(t+1) = W(t) + vW(t+1)

আসলে, এটি অনুশীলনে একটি বিশাল পার্থক্য ...


5

যুক্ত: সিএস 231 এন , নিউরাল নেটওয়ার্কগুলির উপর একটি স্ট্যানফোর্ড কোর্সটি আরও একটি ধাপ দেয়:

v = mu * v_prev - learning_rate * gradient(x)   # GD + momentum
v_nesterov = v + mu * (v - v_prev)              # keep going, extrapolate
x += v_nesterov

এখানে vবেগ ওরফে স্টেপ ওরফে রাষ্ট্র এবং muএটি একটি গতিবেগের কারণ, সাধারণত 0.9 বা তাই। ( v, xএবং learning_rateখুব দীর্ঘ ভেক্টর হতে পারে; numpy সঙ্গে, কোড একই।)

vপ্রথম লাইনে গতিবেগ সহ গ্রেডিয়েন্ট বংশোদ্ভূত; v_nesterovএক্সট্রাপোলেট, চলতে থাকে উদাহরণস্বরূপ, মি = 0.9 সহ,

v_prev  v   --> v_nesterov
---------------
 0  10  -->  19
10   0  -->  -9
10  10  -->  10
10  20  -->  29

নীচের বর্ণনায় 3 টি পদ রয়েছে:
পদ 1 একা সরল গ্রেডিয়েন্ট বংশোদ্ভূত (জিডি),
1 + 2 জিডি + গতিবেগ দেয়,
1 + 2 + 3 নেস্টারভ জিডি দিন।

এক্সটিYটিYটিএক্সটি+ +1

Yটি=এক্সটি+ +মি(এক্সটি-এক্সটি-1) - গতিবেগ, ভবিষ্যদ্বাণীকারী
এক্সটি+ +1=Yটি+ + (Yটি) - গ্রেডিয়েন্ট

টি-(Yটি)

Yটি

Yটি+ +1=Yটি
+ +  টি - গ্রেডিয়েন্ট
+ + মি (Yটি-Yটি-1) - পদক্ষেপ গতি
+ + মি  (টি-টি-1) - গ্রেডিয়েন্ট গতি

শেষ শব্দটি প্লেইন মোমেন্টামের সাথে জিডি এবং নেস্টারভের গতিবেগের সাথে জিডির পার্থক্য।


মিমিRএকটি
+ + মি (Yটি-Yটি-1) - পদক্ষেপ গতি
+ + মিRএকটি  (টি-টি-1) - গ্রেডিয়েন্ট গতি

মিRএকটি=0মিRএকটি=মি
মিRএকটি>0
মিRএকটি~-.1

মিটিটি



(এক্স/[এন,1]-100)+ +Rআমিপিপি×গুলিআমিএন(πএক্স)

এখানে চিত্র বর্ণনা লিখুন

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.