ভেরিয়েন্স স্কেলিং ইনিশিয়ালাইজার এবং জাভিয়ার ইনিশিয়ালাইজারের মধ্যে পার্থক্য কী?


20

এর Tensorflow বাস্তবায়ন ResNet , আমি মনে করি তারা ভ্যারিয়েন্স স্কেলিং সূচনাকারী ব্যবহার করেন, আমিও জেভিয়ার এটি সূচনাকারী জনপ্রিয় এটি। আমার এ সম্পর্কে খুব বেশি অভিজ্ঞতা নেই, যা অনুশীলনে আরও ভাল?


জাভিয়ের আরম্ভের আরও বিশদ ব্যাখ্যার জন্য আপনি এই লিঙ্কটি দেখতে পারেন: prateekvjoshi.com/2016/03/29/… এর মধ্যে জাভিয়ারের আরম্ভের সঠিক আবিষ্কার এবং এর পিছনে অন্তর্দৃষ্টি অন্তর্ভুক্ত রয়েছে।
হিমাংশু সিং

উত্তর:


31

ঐতিহাসিক দৃষ্টিকোণ

জাভিয়র ইনিশিয়ালাইজেশন , মূলত জ্যাভিয়ার গ্লোরোট এবং যোশুয়া বেঙ্গিও দ্বারা "ডিপ ফিডফোরওয়ার্ড নিউরাল নেটওয়ার্ক প্রশিক্ষণের অসুবিধা বোঝার" জন্য প্রস্তাবিত হ'ল ওয়েট ইনিশিয়েশন প্রযুক্তি যা কোনও স্তরের আউটপুটগুলির বৈকল্পিককে তার ইনপুটগুলির বৈকল্পিকের সমান করতে চেষ্টা করে is । এই ধারণাটি বাস্তবে খুব কার্যকর হতে দেখা গেছে। স্বাভাবিকভাবেই, এই সূচনাটি স্তর অ্যাক্টিভেশন ফাংশনের উপর নির্ভর করে। এবং তাদের কাগজে, গ্লোরোট এবং বেনজিও লজিস্টিক সিগময়েড অ্যাক্টিভেশন ফাংশন হিসাবে বিবেচনা করেছিলেন , যা এই মুহুর্তে ডিফল্ট পছন্দ ছিল।

পরে, সিগময়েড অ্যাক্টিভেশনটি রেলু দ্বারা অতিক্রম করে, কারণ এটি বিলুপ্ত / বিস্ফোরিত গ্রেডিয়েন্টগুলির সমস্যা সমাধানের অনুমতি দেয়। ফলস্বরূপ, একটি নতুন সূচনা কৌশল উপস্থিত হয়েছিল, যা এই নতুন সক্রিয়করণ কার্যে একই ধারণা (অ্যাক্টিভেশনের বিভিন্নতার ভারসাম্য) প্রয়োগ করেছিল। এটি "ডেলিভিং ডিপ ইন রেকটিফায়ার্স: ইমেজনেট শ্রেণিবিন্যাসে মানব-স্তরের পারফরম্যান্সকে ছাড়িয়ে যাওয়ার " ক্ষেত্রে কাইমিং হির প্রস্তাব করেছিলেন এবং এখন এটি প্রায়শই তাঁকে আরম্ভ হিসাবে অভিহিত করা হয়

টেনস্রোফ্লোতে, তিনি ইনিশিয়ালাইজেশন variance_scaling_initializer()কার্যকরীভাবে প্রয়োগ করা হয় (এটি আসলে আরও সাধারণ আরম্ভকারী, তবে ডিফল্টরূপে তিনি আরম্ভ করেন), আর জ্যাভিয়ার ইনিশিয়ালাইজারটি যৌক্তিকভাবে হয় xavier_initializer()

সারসংক্ষেপ

সংক্ষেপে, মেশিন লার্নিং অনুশীলনকারীদের প্রধান পার্থক্যটি হ'ল:

  • তিনি ইনিশিয়ালাইজেশন রিলু অ্যাক্টিভেশন সহ স্তরগুলির জন্য আরও ভাল কাজ করে ।
  • জাভিয়ার ইনিশিয়ালাইজেশন সিগময়েড অ্যাক্টিভেশন সহ স্তরগুলির জন্য আরও ভাল কাজ করে ।

পাইটর্কে কী ইনিশিয়ালটাইন ব্যবহৃত হয়? এটি কি সক্রিয়করণের উপর নির্ভর করে?
চার্লি পার্কার 1

2
হাই, tanh()অ্যাক্টিভেশন ফাংশনের জন্য, কোন সূচনাটি আমার ব্যবহার করা উচিত।
GoingMyWay

@ গোয়িংমাইওয়ে, এই পাইটর্চ.অর্গ / ডকস / স্টেবল / ২ অনুযায়ী আপনি 5/3 লাভের মাধ্যমে তিনি আরম্ভ করতে পারেন। যদিও তা কোথা থেকে এসেছে তা নিশ্চিত নয়।
পডগর্স্কি

3

ভেরিয়েন্স স্কেলিং জাভিয়ারের কেবলমাত্র একটি সাধারণীকরণ: http://tflearn.org/initializations/ । তারা উভয়ই এই নীতিতে পরিচালিত হয় যে সমস্ত স্তরগুলির মধ্যে গ্রেডিয়েন্টগুলির স্কেল একই হওয়া উচিত। জাভিয়ার ব্যবহারের জন্য সম্ভবত এটি নিরাপদ কারণ এটি সময়ের পরীক্ষামূলক পরীক্ষার প্রতিরোধ করে; ভেরিয়েন্স স্কেলিংয়ের জন্য আপনার নিজের প্যারামিটারগুলি বেছে নেওয়ার চেষ্টা করা প্রশিক্ষণকে বাধা দেয় বা আপনার নেটওয়ার্ককে আদৌ উপার্জন করতে না পারে।


ধন্যবাদ। বৈকল্পিকতার জন্য আপনার নিজের পরামিতিগুলি চয়ন করার অর্থ কী?
হনামিচি

টিএফ বাস্তবায়নে এটি ফ্যাক্টর প্যারামিটার হবে (যা আউটপুট বৈকল্পিকের ইনপুট ভেরিয়েন্সের অনুপাত নির্ধারণ করে)
লিয়াংজি
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.