ব্যাকপ্রপ্যাগেশন কৌশলগুলির মধ্যে পার্থক্য


17

শুধু মজা করার জন্য, আমি একটি নিউরাল নেটওয়ার্ক বিকাশের চেষ্টা করছি।

এখন, ব্যাকপ্রকাশের জন্য আমি দুটি কৌশল দেখেছি।

প্রথমটি এখানে এবং অন্যান্য অনেক জায়গায় ব্যবহৃত হয়।

এটি যা করে তা হ'ল:

  • এটি প্রতিটি আউটপুট নিউরনের জন্য ত্রুটি গণনা করে।
  • এটি নেটওয়ার্কে ব্যাকপ্রোপেট করে (প্রতিটি অভ্যন্তরীণ নিউরনের জন্য একটি ত্রুটি গণনা করে)।
  • এটি সূত্রের সাহায্যে ওজন আপডেট করে: ( ওজনে পরিবর্তন, শেখার গতি, স্ন্যাপস থেকে ইনপুট প্রাপ্ত নিউরনের ত্রুটি এবং সিনপেসে পাঠানো আউটপুট হওয়ায়)।
  • এটি ডেটাসেটের প্রতিটি প্রবেশের জন্য পুনরাবৃত্তি করে, যত বার প্রয়োজন হয়।

তবে, এই টিউটোরিয়ালে প্রস্তাবিত নিউরাল নেটওয়ার্ক (গিটহাবের উপরও উপলভ্য) পৃথক কৌশল ব্যবহার করে:

  • এটি একটি ত্রুটি ফাংশন ব্যবহার করে (অন্য পদ্ধতিতে ত্রুটির ফাংশন রয়েছে তবে এটি প্রশিক্ষণের জন্য এটি ব্যবহার করে না)।
  • এটির একটি অন্য কার্য রয়েছে যা ওজন থেকে শুরু করে চূড়ান্ত ত্রুটি গণনা করতে পারে।
  • এটি সেই ক্রিয়াকে হ্রাস করে (গ্রেডিয়েন্ট বংশদ্ভুত মাধ্যমে)।

এখন, কোন পদ্ধতিটি ব্যবহার করা উচিত?

আমার মনে হয় প্রথমটি সবচেয়ে বেশি ব্যবহৃত হয় (কারণ আমি এটি ব্যবহার করে বিভিন্ন উদাহরণ দেখেছি), তবে এটি কি কাজ করে?

বিশেষত, আমি জানি না:

  • এটি কি স্থানীয় ন্যূনতমের অধীন বিষয় নয় (যেহেতু এটি চতুর্ভুজ ফাংশন ব্যবহার করে না)?
  • যেহেতু প্রতিটি ওজনের তারতম্যটি তার আউটপুট নিউরনের আউটপুট মান দ্বারা প্রভাবিত হয়, তাই ডেটাসেটের এন্ট্রিগুলি কি নিউরনে উচ্চতর মান তৈরি করতে পারে (কেবলমাত্র আউটপুটগুলি নয়) অন্যান্য এন্ট্রিগুলির চেয়ে ওজনকে বেশি প্রভাবিত করে?

এখন, আমি প্রথম কৌশলটি পছন্দ করি, কারণ এটি কার্যকর করা সহজ এবং এটি সম্পর্কে চিন্তা করা সহজ easier

যদিও, এতে যদি আমি উল্লেখ করা সমস্যাগুলি থাকে (যা আমি আশা করি এটি না করে) তবে এটি দ্বিতীয় পদ্ধতিতে ব্যবহার করার কোনও বাস্তব কারণ আছে কি?

উত্তর:


6

দুটি উদাহরণ মূলত একই ক্রিয়াকলাপটি উপস্থাপন করে:

  • উভয় ক্ষেত্রেই আউটপুটটিতে গণনা করা ব্যাকপ্রপাগেটেড স্কোয়ার্ড ত্রুটি ব্যবহার করে নেটওয়ার্কটি গ্রেডিয়েন্ট বংশোদ্ভূত দ্বারা প্রশিক্ষিত হয়।
  • উভয় উদাহরণ নোড অ্যাক্টিভেশন (লজিস্টিক ফাংশনের ব্যুৎপন্ন জন্য লজিস্টিক ফাংশন ব্যবহার sকরা হয় s(1 - s)। এই ব্যুৎপন্ন স্পষ্টত কম্পিউট করা খুব সহজ, এবং এই এই দিন কেন এটা এত ব্যাপকভাবে ব্যবহৃত হয়েছিল অংশ (হয় ReLU অ্যাক্টিভেশন ফাংশন আরো জনপ্রিয় , বিশেষত সমঝোতা নেটওয়ার্কগুলির সাথে)।
  • প্রথম পদ্ধতিটিতে গতিও ব্যবহৃত হয়

আমি দেখতে পাচ্ছি যে প্রধান পার্থক্য প্রথম ক্ষেত্রে ব্যাকপ্রোগেশন পুনরাবৃত্তি হয় যখন দ্বিতীয় উদাহরণে এটি ব্যাচ মোডে সঞ্চালিত হয়।

ওয়েলচ ল্যাবসের সিরিজের সর্বশেষ ভিডিওটি একটি কোয়াটি-নিউটনীয় পদ্ধতি উপস্থাপন করেছে যা হেসিয়ান (ওজনকে সম্মানের সাথে ত্রুটির দ্বিতীয়-ক্রমের ডেরাইভেটিভসের ম্যাট্রিক্স) গণনা করে সর্বনিম্ন ব্যয় ফাংশনের সন্ধানের সুযোগ দেয় । যাইহোক, এটি আপেল এবং কমলাগুলির সাথে তুলনা করার মতো মনে হয় - ভ্যানিলা গ্রেডিয়েন্ট বংশোদ্ভূত দ্বিতীয় আদেশের তথ্য ব্যবহার করে না।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.