নিউরাল নেটওয়ার্কে ভাল প্রাথমিক ওজন কী কী?


68

আমি কেবল শুনেছি, রেঞ্জ থেকে একটি নিউরাল নেটওয়ার্কের প্রাথমিক ওজন চয়ন করা ভাল ধারণা , যেখানেডিপ্রদত্ত নিউরনের ইনপুটগুলির সংখ্যা। ধারণা করা হয়, সেটগুলি স্বাভাবিক করা হয়েছে - মানে 0, ভেরিয়েন্স 1 (এটি জানেন কিনা তা জানেন না)।(1d,1d)d

কেন এটি একটি ভাল ধারণা?


শুরুর কৌশলগুলি সম্পর্কে ওভারভিউয়ের জন্য আমার মাস্টার্স থিসিস পৃষ্ঠা 81 দেখুন ।
মার্টিন থোমা

উত্তর:


47

আমি ধরে নিলাম আপনি লজিস্টিক নিউরন ব্যবহার করছেন এবং আপনি গ্রেডিয়েন্ট বংশোদ্ভূত / ব্যাক-প্রসারণ দ্বারা প্রশিক্ষণ নিচ্ছেন।

লজিস্টিক ফাংশন বড় ধনাত্মক বা নেতিবাচক ইনপুটগুলির জন্য ফ্ল্যাটের কাছাকাছি। এর একটি ইনপুট এ ব্যুৎপন্ন সম্পর্কে 1 / 10 কিন্তু এ 10 ব্যুৎপন্ন সম্পর্কে 1 / 22000 । এর অর্থ হ'ল লজিস্টিক নিউরনের ইনপুট যদি 10 হয় তবে প্রদত্ত প্রশিক্ষণ সংকেতের জন্য, নিউরনটি প্রায় 2200 গতি কম শিখবে যে ইনপুটটি 2 হলে21/10101/220001022002

আপনি যদি নিউরনটি দ্রুত শিখতে চান তবে আপনাকে একটি বিশাল প্রশিক্ষণ সংকেত তৈরি করতে হবে (যেমন ক্রস-এনট্রপি লোকসান ফাংশন সহ) অথবা আপনি ডেরাইভেটিভটি বড় হতে চান। ডেরাইভেটিভ বৃহত করতে, আপনি প্রাথমিক ওজন সেট করেন যাতে আপনি প্রায়শই সীমার মধ্যে ইনপুট পান [4,4]

আপনি প্রদত্ত প্রাথমিক ওজন কার্যকর হতে পারে বা নাও পারে। এটি কীভাবে ইনপুটগুলি স্বাভাবিক করা হয় তার উপর নির্ভর করে। ইনপুট গড় আছে স্বাভাবিক হয় এবং মানক চ্যুতির 1 , তত্কালীন একটি র্যান্ডম সমষ্টি উপর ওজন অভিন্ন সঙ্গে পদ ( - 101dঅর্থ0এবং ভেরিয়েন্স1 হবে(1d,1d)0 ,ডি থেকেস্বতন্ত্র। [-4,4]এর বাইরে আপনি একটি যোগফল পাওয়ার সম্ভাবনাখুব কম। এর অর্থ হ'ল আপনিডিবাড়ার সাথে সাথেআপনি নিউরনগুলিকে স্যাচুরেটেড শুরু করতে দিচ্ছেন না যাতে তারা শিখেন না।13d[4,4]d

ইনপুটগুলি যা সাধারণ হয় না, সেই ওজনগুলি সম্পৃক্তি এড়ানোর ক্ষেত্রে কার্যকর নাও হতে পারে।


1
সুতরাং মূলত, একজনকে সর্বদা ডেটা স্বাভাবিক করার বিষয়টি বিবেচনা করা উচিত .. এটি এখন উপলব্ধি হয়ে যায়। আপনি কী ব্যাখ্যা করতে পারবেন যে কেন স্টাডি বিচ্যুতিটি 1/3 হবে এবং <-4,4> সীমার বাইরে ইনপুট যোগফলের সম্ভাবনা কতটা কম?
এলমেস

1
ভেরিয়েন্সের কয়েকটি প্রাথমিক বৈশিষ্ট্য রয়েছে যা এটিকে বোঝায়: যদি এবং ওয়াই স্বতন্ত্র হয় তবে ভার ( এক্স + ওয়াই ) = ভার ( এক্স ) + ভার ( ওয়াই ) এবং যদি এক্স এবং ওয়াই স্বতন্ত্র এবং এর অর্থ 0 হয় তবে বর্ণ ( এক্স ওয়াই ) = ভার ( এক্স ) ভার ( ওয়াই )XYVar(X+Y)=Var(X)+Var(Y)XY0Var(XY)=Var(X)Var(Y)
ডগলাস জারে

1
আপনি সম্ভাবনাটি অনুমান করতে পারেন যে এলোমেলো পরিবর্তনশীল চেবশেভ অসমতা ব্যবহার করে গড় থেকে কমপক্ষে স্ট্যান্ডার্ড বিচ্যুতি হয়। অনুশীলনে এটি তীক্ষ্ণ নয়, তবে সঠিক ফলাফল বিতরণের উপর নির্ভর করে। 12
ডগলাস জারে

যাইহোক, আমি ভুল গণনা করেছি। ভেরিয়েন্সটি সুতরাং স্ট্যান্ডার্ড বিচ্যুতি1313
ডগলাস জারে

1
"লজিস্টিক ফাংশন বৃহৎ ইতিবাচক বা নেতিবাচক ইনপুট জন্য ফ্ল্যাট কাছাকাছি। এর একটি ইনপুট এ ব্যুৎপন্ন ..." প্রাসঙ্গিক বিষয় ডেরিভেটিভ হবে না উচিত খরচ ফাংশন লজিস্টিক রিগ্রেশন এর? ওজন এবং সিগন্যালের আকার নির্বিশেষে ব্যয় ফাংশনের ডেরাইভেটিভের ইনপুটটি ইতিমধ্যে লজিস্টিক ফাংশন দ্বারা (0,1) এ আকার দেওয়া হয়েছে?
মবি

28

[1] প্রশ্নটি সম্বোধন করে:

প্রথমত, ব্যাকপ্রোগ্র্যাগেট করার সময় প্রতিসাম্যতা ভাঙার জন্য ওজনগুলি জিরোতে সেট করা উচিত নয়:

বায়াসগুলি সাধারণত শূন্যে শুরু করা যায় তবে একই স্তরের লুকানো ইউনিটের মধ্যে প্রতিসাম্যতা ভাঙতে ওজনকে সাবধানতার সাথে শুরু করা দরকার। যেহেতু বিভিন্ন আউটপুট ইউনিট বিভিন্ন গ্রেডিয়েন্ট সংকেত প্রাপ্ত করে, এই প্রতিসাম্যতা ব্রেকিং ইস্যু আউটপুট ওজনকে (আউটপুট ইউনিটগুলিতে) উদ্বেগ দেয় না, সুতরাং এটিও শূন্যে সেট করা যেতে পারে।

কিছু সূচনা কৌশল:

  • [2] এবং [3] ফ্যান-ইন এর বর্গমূলের বিপরীত দ্বারা স্কেলিংয়ের পরামর্শ দেয়
  • গ্লারোট এবং বেনজিও (২০১০) এবং ডিপ লার্নিং টিউটোরিয়ালগুলি ফ্যান-ইন এবং ফ্যান-আউটের সংমিশ্রণ ব্যবহার করে:
    • r=6fan-in+fan-out
    • r=46fan-in+fan-out
  • আরবিএম-এর ক্ষেত্রে, 0.1 বা 0.01-এর কাছাকাছি একটি ছোট স্ট্যান্ডার্ড বিচ্যুততার সাথে শূন্য-গড় গাউসিয়ান ওজন শুরু করতে খুব ভাল (হিন্টন, ২০১০) কাজ করে।
  • অরথোগোনাল এলোমেলো ম্যাট্রিক্স ইনিশিয়েশন, অর্থাৎ W = np.random.randn(ndim, ndim); u, s, v = np.linalg.svd(W)তারপরে uআপনার আরম্ভের ম্যাট্রিক্স হিসাবে ব্যবহার করুন ।

এছাড়াও, নিরীক্ষণযোগ্য প্রাক-প্রশিক্ষণ কিছু পরিস্থিতিতে সহায়তা করতে পারে:

প্যারামিটারগুলি আরম্ভ করার জন্য কারও অব্যবহৃত প্রাক-প্রশিক্ষণ (এবং কোনটি নিখরচায় বৈশিষ্ট্য শেখার অ্যালগরিদম ব্যবহার করা উচিত) তা গুরুত্বপূর্ণ is বেশিরভাগ সেটিংসে আমরা সাহায্যের জন্য নিরীক্ষণমূলক প্রাক-প্রশিক্ষণ পেয়েছি এবং খুব কমই আঘাত লাগবে, তবে অবশ্যই এটি অতিরিক্ত প্রশিক্ষণের সময় এবং অতিরিক্ত হাইপার-পরামিতিগুলি বোঝায়।

কিছু এএনএন লাইব্রেরিতে কিছু আকর্ষণীয় তালিকা রয়েছে যেমন লাসাগন :

Constant([val]) Initialize weights with constant value.
Normal([std, mean]) Sample initial weights from the Gaussian distribution.
Uniform([range, std, mean]) Sample initial weights from the uniform distribution.
Glorot(initializer[, gain, c01b])   Glorot weight initialization.
GlorotNormal([gain, c01b])  Glorot with weights sampled from the Normal distribution.
GlorotUniform([gain, c01b]) Glorot with weights sampled from the Uniform distribution.
He(initializer[, gain, c01b])   He weight initialization.
HeNormal([gain, c01b])  He initializer with weights sampled from the Normal distribution.
HeUniform([gain, c01b]) He initializer with weights sampled from the Uniform distribution.
Orthogonal([gain])  Intialize weights as Orthogonal matrix.
Sparse([sparsity, std]) Initialize weights as sparse matrix.

[1] বেঞ্জিও, যোশুয়া। " গভীর আর্কিটেকচারের গ্রেডিয়েন্ট-ভিত্তিক প্রশিক্ষণের জন্য ব্যবহারিক প্রস্তাবনা " "নিউরাল নেটওয়ার্ক: ট্রেডের কৌশল। স্প্রিঞ্জার বার্লিন হাইডেলবার্গ, 2012. 437-478।

[2] লেকান, ওয়াই, বোটোউ, এল।, ওআর, জিবি, এবং মুলার, কে। (1998a)। দক্ষ ব্যাকপ্রপ নিউরাল নেটওয়ার্কগুলিতে, ব্যবসায়ের কৌশল

[3] গ্লোরোট, জাভিয়ার এবং ইওশুয়া বেনজিও। " গভীর ফিডফর্ডার নিউরাল নেটওয়ার্কগুলির প্রশিক্ষণের অসুবিধা বোঝা ।" কৃত্রিম বুদ্ধিমত্তা এবং পরিসংখ্যান সম্পর্কিত আন্তর্জাতিক সম্মেলন। 2010।


2
আমি দুটি দরকারী রেফারেন্স যুক্ত করতে চাই: ১) রেকটিফায়ারগুলিতে গভীরভাবে অনুশীলন করা: ইমেজনেট শ্রেণিবিন্যাসে মানব-স্তরের পারফরম্যান্সকে ছাড়িয়ে যাওয়া - অ্যাক্টিভেশন-সচেতন স্কেলিংয়ের গুরুত্ব সম্পর্কে arxiv.org/abs/1502.01852 2) এর অরৈখিক গতিবিদ্যার সঠিক সমাধান গভীর রৈখিক নিউরাল নেটওয়ার্কগুলিতে শিখতে arxiv.org/abs/1312.6120 - গৌরব শব্দের চেয়ে অরথনরমাল ম্যাট্রিকগুলি আরও ভাল
পুরাতন

1
একজন সম্পাদক সিগময়েডের জন্য আরম্ভের পরামর্শ দিয়েছিলেন এবং মূল কাগজটির সাথে মেলে হাইপারবারিক ট্যানজেন্টটি পরিবর্তন করা উচিত।
গাং

2
আপনি কি এই সম্পাদনাটি রাখতে চান, ফ্র্যাঙ্ক? যদি তা না হয় তবে আপনি এটি আবার রোল করতে পারেন।
গাং

আমি নিশ্চিত কিছু একটা ভুলে যাচ্ছি। গ্লোরোট অ্যান্ড বেঞ্জিও (২০১০) পেপারে এটি কোথায় বলা হয়েছে যে তারা লজিস্টিক সিগময়েড অ্যাক্টিভেশন ফাংশন ব্যবহার করার সময় সমীকরণ 16 মানের 4 গুণ ব্যবহার করার পরামর্শ দেয়? সমীকরণ 16 সমীকরণ 12 এবং অভিন্ন বিতরণের বৈকল্পিকতা অনুসরণ করে, তবে সমীকরণ 16টি 0 এ ইউনিট ডেরিভেটিভ সহ একটি প্রতিসম অ্যাক্টিভেশন ধরে ধরে নেওয়া হয়। সুতরাং, তানহ অ্যাক্টিভেশন ফাংশন, তবে লজিস্টিক অ্যাক্টিভেশন ফাংশন (নন-প্রতিসাম্য) নয়। তদতিরিক্ত, তারা এই প্রস্তাবিত সূচনাটি লজিস্টিক সিগময়েড দিয়েও পরীক্ষা করে না; তারা এটি কেবল তানহ এবং সফটসাইন দিয়ে পরীক্ষা করে।
টমি এল

10

<xi>=0
<xi2>=1

প্রশ্নটি হল: ওজন কীভাবে সেরা চয়ন করা যায়? ধারণাটি হ'ল এলোমেলোভাবে একটি বিতরণের পরে ওজনের মানগুলি বেছে নেওয়া যা অপ্টিমাইজেশন প্রক্রিয়াটিকে একটি অর্থপূর্ণ সমাধানে রূপান্তরিত করতে সহায়তা করে।

y=g(a)
a=i=0dwixi
<a>=i=0d<wixi>=i=0d<wi><xi>=0
<a2>=(i=0dwixi)(i=0dwixi)=i=0d<wi2><xi2>=σ2d
<wiwj>=δij

<xi2>=10

σααα

এটি গভীর নিউরাল নেটওয়ার্কগুলির জন্য বিশেষভাবে সত্য, যেখানে স্তরগুলি যুক্ত করার সাথে ইউনিটগুলি দ্রুত পরিপূর্ণ হয়। এই প্রশ্নটি নিয়ে অনেকগুলি কাগজপত্র রয়েছে। একটি ভাল শুরুর বিন্দু পারে glorot এবং bengio দ্বারা "প্রশিক্ষণ গভীর feedforward স্নায়ুর নেটওয়ার্ক অসুবিধা বুঝুন" করা
jpmuc

10

ঠিক যেমন একটি আপডেট হিসাবে, ডেলভিং ডিপ ইন রেকটিফায়ার্স: হিউম্যান-লেভেল পারফরম্যান্সকে ছাড়িয়ে যাওয়ার মাধ্যমে তিনি এবং অন্যান্য এল-এর মাধ্যমে ইমেজনেট শ্রেণিবদ্ধকরণ বিশেষত একটি আরম্ভকরণের সাথে সূচনা করেছিল w = U([0,n]) * sqrt(2.0/n)যেখানে nআপনার এনএন-এর ইনপুট সংখ্যা। আমি এই সূচনাটি বেশ কয়েকটি সাম্প্রতিক কাজগুলিতে (আরএলইউ সহ) ব্যবহার করেও দেখেছি। তারা প্রকৃতপক্ষে দেখায় যে এটি আপনার উল্লিখিত (-1 / n, 1 / n) এর চেয়ে ত্রুটি হারটিকে আরও দ্রুত হ্রাস করতে শুরু করে। পুঙ্খানুপুঙ্খ ব্যাখ্যার জন্য, কাগজটি দেখুন তবে এটি কত দ্রুত রূপান্তরিত হয় তা এখানে: একটি 22-স্তর বৃহত মডেলের রূপান্তর


কি দারুন! আমার জন্য উল্লেখযোগ্য উন্নতি।
থমাস ডাব্লু

বড় সংখ্যক ইনপুটের জন্য নয় যদিও ... এমএনআইএসটিতে ব্যর্থ।
টমাস ডাব্লু

দ্রষ্টব্য যে তিনি-সূচনাটি বিশেষত (পি) আরএলইউর জন্য ডিজাইন করা হয়েছে এবং এটি প্রতিসাম্য নয় (যা জাভিয়ার-ইনিশিয়ালাইজেশনের অন্যতম অনুমান)। প্রসঙ্গের বাইরে এই গ্রাফ দ্বারা বোকা বোকা না!
মিঃ Tsjolder

5

ধারণাটি হ'ল আপনি ওজনকে এমনভাবে শুরু করতে চান যা নেটওয়ার্কের মাধ্যমে ভাল ফরোয়ার্ড এবং পশ্চাদপটে ডেটা প্রবাহকে নিশ্চিত করে। এটি হ'ল, আপনি চান না যে আপনি নেটওয়ার্কের মাধ্যমে অগ্রগতি হিসাবে ক্রিয়াকলাপগুলি ধারাবাহিকভাবে সঙ্কুচিত হওয়া বা বাড়ানো উচিত।

এই চিত্রটি নেটওয়ার্কের মাধ্যমে এমএনআইএসটি পাসের পরে 3 টি পৃথক সূচনা কৌশলের অধীনে 5 স্তরের আরএলইউ মাল্টি-লেয়ার পারসেপ্ট্রনের ক্রিয়াকলাপ দেখায়।

বিভিন্ন সূচনা কৌশল সহ একটি রিলু এমএলপিতে ক্রিয়াকলাপ

তিনটি ক্ষেত্রেই ওজন শূন্যকেন্দ্রিক সাধারণ বিতরণ থেকে আঁকা যা এটির মানক বিচ্যুতি দ্বারা নির্ধারিত হয়। আপনি দেখতে পারেন যে যদি প্রাথমিক ওজন খুব ছোট হয় (মানক বিচ্যুতি ছোট হয়) সক্রিয়তাগুলি দম বন্ধ হয়ে যায়, এবং যদি তারা খুব বেশি হয় তবে সক্রিয়করণগুলি বিস্ফোরিত হয়। মাঝারি মানটি, যা প্রায় সঠিকভাবে ওজন নির্ধারণের মাধ্যমে সন্ধান করা যেতে পারে যাতে আপনি নেটওয়ার্কের মধ্য দিয়ে যাওয়ার সময় অ্যাক্টিভেশন এবং গ্রেডিয়েন্ট আপডেটের বৈকল্পিকতা প্রায় একই থাকে।

আমি ওজন প্রারম্ভিককরণ সম্পর্কে একটি ব্লগ পোস্ট লিখেছিলাম যা আরও বিশদে যায় তবে মূল ধারণাটি নীচে দেওয়া is

x(i)iniw(i)(i+1)ff(s)1

Var(x(i+1))=niVar(x(i))Var(w(i))

Var(x(i+1))=Var(x(i))

Var(w(i))=1ni.

Lxj(i)Δj(i)

Var(Δ(i))=ni+1Var(Δ(i+1))Var(w(i)).

ni=ni+1

Var(w(i))=2ni+ni+1.

N(0,σ)σ=2ni+ni+1U(a,a)a=6ni+ni+1Var(U(a,a))=a2/3

tanhReLUf(s)=ReLU(s)

Var(w(i))=2ni.

3

μB=1mi=1Mxi   and   σB2=1mi=1m(xiμB)2x^i=xiμBσB2+ϵ   and   BN(xi)=γx^i+β
xiBN(xi)x^iγβ

γβx^ixixix^iβγপ্রশিক্ষণের সময়। সুতরাং, ব্যাচ নরমালাইজেশন শিক্ষার স্থিতিশীল করে।

ফলস্বরূপ, ব্যাচ নরমালাইজেশন অনেক উচ্চতর শিক্ষার হার ব্যবহার করে দ্রুত প্রশিক্ষণ সক্ষম করে এবং খারাপ প্রাথমিককরণের সমস্যা থেকে মুক্তি দেয়। বিএন নেটওয়ার্ককে স্যাচুরেশন মোডে আটকাতে বাধা দিয়ে স্যাচুরটিং অ-লাইনারিটিগুলি ব্যবহার করাও সম্ভব করে তোলে। সংক্ষেপে, ব্যাচ নরমালাইজেশন হল একটি ডিফারেনটেবল ট্রান্সফর্ম যা নেটওয়ার্কে সাধারন ক্রিয়াকলাপগুলির সূচনা করে। অনুশীলনে, একটি বিএন স্তর সম্পূর্ণ সংযুক্ত স্তরের সাথে সাথে afterোকানো যেতে পারে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.