একক স্তরের নিউরাল নেটওয়ার্কের ডাইরিভিং গ্রেডিয়েন্ট এর ইনপুটগুলিকে আঁকায়, চেইন রুলে অপারেটরটি কী?


9

সমস্যাটি হ'ল:

ক্রস এন্ট্রপি ক্ষতি সহ ইনপুট -> লুকানো, লুকানো -> আউটপুট জন্য সফটম্যাক্স ব্যবহার করে সিএলএময়েড ব্যবহার করে আ সিঙ্গল লুকানো লেয়ার নিউরাল নেটওয়ার্কের জন্য ইনপুট লেয়ারের সাথে সম্মানের সাথে গ্রেডিয়েন্টটি আবিষ্কার করুন।

আমি চেইন বিধিটি ব্যবহার করে বেশিরভাগ উদ্দীপনা নিয়ে যেতে পারি তবে কীভাবে এগুলিকে একসাথে "চেইন" করা যায় সে সম্পর্কে আমি অনিশ্চিত।

কিছু স্বীকৃতি সংজ্ঞায়িত করুন

r=xW1+b1

h=σ(r) , হ'ল সিগময়েড ফাংশনσ

θ=hW2+b2 ,

y^=S(θ) থিয়েটা , হ'ল সফটম্যাক্স ফাংশনS

J(y^)=iylogy^i , হ'ল বাস্তব এক লেবেল এক-গরম ভেক্টরy

তারপরে শৃঙ্খলা নিয়মে,

Jx=Jθθhhrrx

পৃথক গ্রেডিয়েন্টগুলি হ'ল:

Jθ=(y^y)
θh=h[hW2+b2]=W2T
hr=h(1h)
rx=x[xW1+b1]=W1T

এখন আমাদের সংজ্ঞাগুলি এক সাথে চেইন করতে হবে। একক ভেরিয়েবলে এটি সহজ, আমরা কেবল সমস্ত কিছু একসাথে গুণ করি। ভেক্টরগুলিতে, আমি উপাদান-ভিত্তিক গুণ বা ম্যাট্রিক্সের গুণটি ব্যবহার করব কিনা তা নিশ্চিত নই।

Jx=(y^y)W2T[h(1h)]W1T

যেখানে হ'ল ভেক্টরগুলির উপাদান-ভিত্তিক গুণ, এবং একটি ম্যাট্রিক্স গুণফল । ক্রিয়াকলাপগুলির এই সংমিশ্রণটি আমি মাত্রার ভেক্টর পেতে একসাথে স্ট্রিংয়ের মতো মনে করতে পারি, যা আমি জানি থাকতে হবে।1DxJx

আমার প্রশ্নটি: কোন অপারেটরটি ব্যবহার করবেন তা নির্ধারণের জন্য নীতিগত উপায়টি কী? আমি বিশেষত এবং মধ্যে উপাদান অনুসারে প্রয়োজনীয়তার দ্বারা বিভ্রান্ত হয়ে পড়েছি ।W2Th

ধন্যবাদ!


আমি বুঝতে পারি ইনপুটগুলিতে গ্রেডিয়েন্ট আর্ট সন্ধান করা প্রায়শই হয় না। আমি বিশ্বাস করি এটি শব্দের এমবেডিংগুলি কম্পিউটিংয়ে নেতৃত্ব, যেখানে আপনার কাছে "ইনপুট" শব্দ ভেক্টরগুলিকে অনুকূল করতে বিকল্প রয়েছে have
আমসুকওয়া

কিভাবে দিদি আপনি dervie DJ / dTheta
Raaj

উত্তর:


4

আমি বিশ্বাস করি যে এই প্রশ্নের উত্তর কী যে বাতলান উপাদান ভিত্তিক গুণ আসলে হয় সাধারণভাবে সংক্ষেপে এবং তাই যখন আপনি সমীকরণ আহরণ আপনি না আসলে এটি ব্যবহার।

আসল ক্রিয়াকলাপটি কোনও উপাদান-ভিত্তিক গুণ নয়, পরিবর্তে সর্বদা , একটি জ্যাকবীয়ের সাথে গ্রেডিয়েন্টের মান ম্যাট্রিক্সের গুণ ।

অরৈখিকতার ক্ষেত্রে, নন-লিনিয়ারিটির ভেক্টর ইনপুট সম্পর্কিত নন-লাইনারিটির ভেক্টর আউটপুটটির জ্যাকবিয়ানটি একটি তির্যক ম্যাট্রিক্স হিসাবে দেখা যায়। সুতরাং এটি সত্য যে এই ম্যাট্রিক্স দ্বারা গুনযুক্ত গ্রেডিয়েন্টটি অরৈখিকতার ইনপুট সম্পর্কিত ননলাইনারিটির সমস্ত আংশিক ডেরিভেটিভসযুক্ত একটি ভেক্টর দ্বারা ক্ষতির উপাদান অনুসারে গুণিত অরৈখিকতার আউটপুট গ্রেডিয়েন্টের সমান, তবে এটি জ্যাকবীয় থেকে তির্যক হওয়া থেকে অনুসরণ করে । উপাদান-ভিত্তিক গুণণের জন্য আপনাকে জ্যাকবীয় পদক্ষেপটি অতিক্রম করতে হবে, যা আপনার বিভ্রান্তির ব্যাখ্যা দিতে পারে।

গণিত, আমরা আছে কিছু nonlinearity , একটি ক্ষতি , এবং nonlinearity একটি ইনপুট (এই কোনো টেন্সর হতে পারে)। অলাইনারিটির আউটপুটে একই মাত্রা --- রয়েছে যেমন @ লোগান বলেছে, অ্যাক্টিভেশন ফাংশনটি উপাদান অনুসারে সংজ্ঞায়িত করা হয়েছে।sLxRn×1s(x)Rn×1

আমরা চাই

xL=(s(x)x)Ts(x)L

যেখানে জ্যাকবীয় । এই জ্যাকবিয়ানকে প্রসারিত করে, আমরা পেয়েছি s(x)xs

[s(x1)x1s(x1)xns(xn)x1s(xn)xn]

আমরা দেখতে পেয়েছি যে এটি তির্যক বাদে সর্বত্র শূন্য। আমরা এর সমস্ত তির্যক উপাদানগুলির একটি ভেক্টর তৈরি করতে পারি

Diag(s(x)x)

এবং তারপরে উপাদান-ভিত্তিক অপারেটরটি ব্যবহার করুন।

xL=(s(x)x)Ts(x)L=Diag(s(x)x)s(x)L

0

যখনই কোনও অ্যাক্টিভেশন ফাংশনে ব্যাকপ্রসারণীয়, ক্রিয়াকলাপগুলি উপাদান-ভিত্তিতে পরিণত হয়। বিশেষত, আপনার উদাহরণটি ব্যবহার করে, ব্যাকপ্রোগেশন ডেরাইভেটিভ এবং একটি সক্রিয়করণ ডেরাইভেটিভ এবং তাদের পণ্য উপাদান অনুসারে পণ্য, । এটি কারণ সক্রিয়করণ ফাংশনগুলি নিউরাল নেটওয়ার্কে উপাদান-ভিত্তিক ক্রিয়াকলাপ হিসাবে সংজ্ঞায়িত হয়।δ2=(y^y)W2Ta=h(1h)δ2a

CS224d বক্তৃতা স্লাইড পৃষ্ঠা 30 দেখুন, এটি সাহায্য করতে পারে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.