সফটম্যাক্স / ক্রস এন্ট্রপি সহ ব্যাকপ্রসারণ

40

আমি বুঝতে চেষ্টা করছি যে কোনও সফটম্যাক্স / ক্রস-এন্ট্রপি আউটপুট স্তরটির জন্য ব্যাকপ্রসারণ কীভাবে কাজ করে।

ক্রস এনট্রপি ত্রুটি ফাংশন

ই (টি, ণ) = - \underset{ঞ}{Σ} {টি}_{ঞ} লগ ণ_{ঞ}

$E(t,o)=-\sum_j t_j \log o_j$

যথাক্রমে নিউরন লক্ষ্য এবং আউটপুট হিসাবে $t$ এবং সহ । যোগফল আউটপুট স্তরের প্রতিটি নিউরনের উপরে। নিজেই সফটম্যাক্স ফাংশনের ফলাফল: $o$ $j$ $o_j$

o_{j} = s o f t m a x (z_{j}) = \frac{e^{z_{j}}}{\sum_{j} e^{z_{j}}}

$o_j=softmax(z_j)=\frac{e^{z_j}}{\sum_j e^{z_j}}$

আবার, যোগফল আউটপুট স্তর প্রতিটি নিউরনের উপর এবং $z_j$ নিউরন ইনপুট হয় $j$ :

z_{j} = \sum_{i} w_{i j} o_{i} + b

$z_j=\sum_i w_{ij}o_i+b$

এটি পূর্ববর্তী স্তরের সমস্ত নিউরনের উপর যোগফল হ'ল নিউরন প্লাস বায়াস দিকে তাদের সংশ্লিষ্ট আউটপুট $o_i$ এবং ওজন । $w_{ij}$ $j$ $b$

এখন, একটি ওজন আপডেট করতে $w_{ij}$ একটি স্নায়ুর সংযোগ স্থাপন করে $j$ একটি স্নায়ুর সঙ্গে আউটপুট স্তরে $i$ পূর্ববর্তী স্তরে, আমি চেইন নিয়ম ব্যবহার ত্রুটি ফাংশন আংশিক ডেরিভেটিভ নিরূপণ করা প্রয়োজন:

\frac{\partial E}{\partial w_{i j}} = \frac{\partial E}{\partial o_{j}} \frac{\partial o_{j}}{\partial z_{j}} \frac{\partial z_{j}}{\partial w_{i j}}

$\frac{\partial E} {\partial w_{ij}}=\frac{\partial E} {\partial o_j} \frac{\partial o_j} {\partial z_{j}} \frac{\partial z_j} {\partial w_{ij}}$

সঙ্গে $z_j$ স্নায়ুর ইনপুট হিসাবে $j$ ।

শেষ শব্দটি বেশ সহজ। যেহেতু $i$ এবং মধ্যে কেবল একটি ওজন থাকে $j$ তাই ডেরাইভেটিভটি হ'ল:

\frac{\partial z_{j}}{\partial w_{i j}} = o_{i}

$\frac{\partial z_j} {\partial w_{ij}}=o_i$

প্রথম শব্দটি হ'ল আউটপুট আউটপুট সম্পর্কিত ত্রুটি ফাংশনটির ডেরাইভেশন : $o_j$

\frac{\partial E}{\partial o_{j}} = \frac{- t_{j}}{o_{j}}

$\frac{\partial E} {\partial o_j} = \frac{-t_j}{o_j}$

মধ্যমেয়াদটি হ'ল সফটম্যাক্স ফাংশনটির ডায়রিভিশন যা এর ইনপুট এর সাথে সম্মতিযুক্ত : $z_j$

\frac{\partial o_{j}}{\partial z_{j}} = \frac{\partial}{\partial z_{j}} \frac{e^{z_{j}}}{\sum_{j} e^{z_{j}}}

$\frac{\partial o_j} {\partial z_{j}}=\frac{\partial} {\partial z_{j}} \frac{e^{z_j}}{\sum_j e^{z_j}}$

ধরা যাক আমাদের ক্লাসের সাথে সংযুক্ত তিনটি আউটপুট নিউরন রয়েছে পরে হ'ল: $a,b,c$ $o_b = softmax(b)$

o_{b} = \frac{e^{z_{b}}}{\sum e^{z}} = \frac{e^{z_{b}}}{e^{z_{a}} + e^{z_{b}} + e^{z_{গ}}}

$o_b=\frac{e^{z_b}}{\sum e^{z}}=\frac{e^{z_b}}{e^{z_a}+e^{z_b}+e^{z_c}}$

ভাগফলের নিয়ম ব্যবহার করে এবং এর ব্যয়:

\frac{\partial ণ_{B ইংরেজী বর্ণমালার দ্বিতীয় অক্ষর}}{\partial {z- র}_{B ইংরেজী বর্ণমালার দ্বিতীয় অক্ষর}} = \frac{ই^{{z- র}_{B ইংরেজী বর্ণমালার দ্বিতীয় অক্ষর}} * Σ ই^{z- র} - (ই^{{z- র}_{B ইংরেজী বর্ণমালার দ্বিতীয় অক্ষর}})^{2}}{(\underset{ঞ}{Σ} ই^{z- র})^{2}} = \frac{ই^{{z- র}_{B ইংরেজী বর্ণমালার দ্বিতীয় অক্ষর}}}{Σ ই^{z- র}} - \frac{(ই^{{z- র}_{B ইংরেজী বর্ণমালার দ্বিতীয় অক্ষর}})^{2}}{(Σ ই^{z- র})^{2}}

$\frac{\partial o_b} {\partial z_{b}}=\frac{e^{z_b}*\sum e^z - (e^{z_b})^2}{(\sum_j e^{z})^2}=\frac{e^{z_b}}{\sum e^z}-\frac{(e^{z_b})^2}{(\sum e^z)^2}$

মধ্যমেয়াদীতে ফিরে যান backpropagation এই মাধ্যম:

= গুলি ণ চ টি মি একটি এক্স (B ইংরেজী বর্ণমালার দ্বিতীয় অক্ষর) - গুলি ণ চ টি মি একটি {এক্স}^{2} (B ইংরেজী বর্ণমালার দ্বিতীয় অক্ষর) = ণ_{B ইংরেজী বর্ণমালার দ্বিতীয় অক্ষর} - ণ_{B ইংরেজী বর্ণমালার দ্বিতীয় অক্ষর}^{2} = ণ_{B ইংরেজী বর্ণমালার দ্বিতীয় অক্ষর} (1 - ণ_{B ইংরেজী বর্ণমালার দ্বিতীয় অক্ষর})

$=softmax(b)-softmax^2(b)=o_b-o_b^2=o_b(1-o_b)$

\frac{\partial ণ_{ঞ}}{\partial {z- র}_{ঞ}} = ণ_{ঞ} (1 - ণ_{ঞ})

$\frac{\partial o_j} {\partial z_{j}}=o_j(1-o_j)$

সব একসাথে রাখা আমি পেতে

\frac{\partial ই}{\partial W_{আমি ঞ}} = \frac{- {টি}_{ঞ}}{ণ_{ঞ}} * ণ_{ঞ} (1 - ণ_{ঞ}) * ণ_{আমি} = - {টি}_{ঞ} (1 - ণ_{ঞ}) * ণ_{আমি}

$\frac{\partial E} {\partial w_{ij}}= \frac{-t_j}{o_j}*o_j(1-o_j)*o_i=-t_j(1-o_j)*o_i$

যার অর্থ, যদি এই শ্রেণীর জন্য লক্ষ্য তবে আমি এর জন্য ওজন আপডেট করব না। এটি ঠিক শোনাচ্ছে না। $t_j=0$

এই আমি তদন্ত পাওয়া মানুষ softmax শিক্ষাদীক্ষা, এক যেখানে দুটি রূপের থাকার এবং অপরের জন্য , মত এখানে বা এখানে । $i=j$ $i\ne j$

তবে আমি এ থেকে কোনও ধারণা করতে পারি না। এছাড়াও আমি নিশ্চিত না যে এটি আমার ত্রুটির কারণ কিনা, তাই আমি আমার সমস্ত গণনা পোস্ট করছি post আমি আশা করি যে আমি কোথায় কিছু মিস করছি বা ভুল হয়ে যাচ্ছি কেউ আমাকে স্পষ্ট করতে পারে।

— Micha
সূত্র

আপনি যে লিঙ্কগুলি দিয়েছেন সেগুলি ইনপুটটির সাথে সম্পর্কিত ডেরাইভেটিভ গণনা করছে, আপনি ওজনের তুলনায় ডেরাইভেটিভ গণনা করছেন।

— জেনকার

35

দ্রষ্টব্য: আমি ব্যাকপ্রপ নিয়ে বিশেষজ্ঞ নই, তবে এখন কিছুটা পড়েছি বলে আমি মনে করি যে নিম্নলিখিত ক্যাভিয়েটটি উপযুক্ত। স্নায়ুবহুল জালগুলিতে কাগজপত্র বা বই পড়ার সময় , ডেরিভেটিভদের জন্য স্ট্যান্ডার্ড সংমিশ্রণ / সূচী সূচীকরণ , ম্যাট্রিক্স নোটেশন এবং বহু-সূচক স্বরলিপিটির মিশ্রণ ব্যবহার করে রচনা করা অস্বাভাবিক কিছু নয় (টেনসর-টেনসর ডেরিভেটিভসের জন্য শেষ দুটিয়ের সংকরকে অন্তর্ভুক্ত করুন) )। সাধারণত উদ্দেশ্যটি হ'ল এটি "প্রসঙ্গ থেকে বোঝা উচিত", সুতরাং আপনার যত্নবান হতে হবে!

আমি আপনার বিকাশের মধ্যে বেশ কয়েকটি অসঙ্গতি লক্ষ্য করেছি। আমি সত্যিই নিউরাল নেটওয়ার্কগুলি করি না, তাই নিম্নলিখিতগুলি ভুল হতে পারে। যাইহোক, সমস্যাটি সম্পর্কে আমি কীভাবে যাব তা এখানে।

প্রথমত, আপনাকে এর সংমিশ্রণের অ্যাকাউন্ট নেওয়া দরকার এবং আপনি প্রতিটি পদটি কেবল একটি ওজনের উপর নির্ভর করে ধরে নিতে পারবেন না। সুতরাং উপাদান এর সাথে এর গ্রেডিয়েন্ট গ্রহণ করা আমাদের $E$ $E$ $k$ $z$

E = - \sum_{j} t_{j} \log o_{j} ⟹ \frac{\partial E}{\partial z_{k}} = - \sum_{j} t_{j} \frac{\partial \log o_{j}}{\partial z_{k}}

$E=-\sum_jt_j\log o_j\implies\frac{\partial E}{\partial z_k}=-\sum_jt_j\frac{\partial \log o_j}{\partial z_k}$

তারপরে, হিসাবে প্রকাশ করা $o_j$ আমাদের

o_{j} = \frac{1}{Ω} e^{z_{j}}, Ω = \sum_{i} e^{z_{i}} ⟹ \log o_{j} = z_{j} - \log Ω

$o_j=\tfrac{1}{\Omega}e^{z_j} \,,\, \Omega=\sum_ie^{z_i} \implies \log o_j=z_j-\log\Omega$

যেখানে

হয়Kronecker ব-দ্বীপ

\frac{\partial \log o_{j}}{\partial z_{k}} = δ_{j k} - \frac{1}{Ω} \frac{\partial Ω}{\partial z_{k}}

$\frac{\partial \log o_j}{\partial z_k}=\delta_{jk}-\frac{1}{\Omega}\frac{\partial\Omega}{\partial z_k}$

δ_{j k}

$\delta_{jk}$ । তারপরে সফটম্যাক্স-ডিনোমিনেটরের গ্রেডিয়েন্টটি

যা দেয়

\frac{\partial Ω}{\partial z_{k}} = \sum_{i} e^{z_{i}} δ_{i k} = e^{z_{k}}

$\frac{\partial\Omega}{\partial z_k}=\sum_ie^{z_i}\delta_{ik}=e^{z_k}$

বা, লগটি প্রসারিত করা হচ্ছে

\frac{\partial \log o_{j}}{\partial z_{k}} = δ_{j k} - o_{k}

$\frac{\partial \log o_j}{\partial z_k}=\delta_{jk}-o_k$

লক্ষ্য করুন ব্যুৎপন্ন থেকে সম্মান সঙ্গে

, একটিঅবাধএর কম্পোনেন্ট

, যা দেয়

শব্দ (

\frac{\partial o_{j}}{\partial z_{k}} = o_{j} (δ_{j k} - o_{k})

$\frac{\partial o_j}{\partial z_k}=o_j(\delta_{jk}-o_k)$

z_{k}

$z_k$

z

$z$

δ_{j k}

$\delta_{jk}$

= 1

$=1$ শুধুমাত্র যখন

)।

k = j

$k=j$

তাই সাথে সম্মানের সাথে এর গ্রেডিয়েন্ট $E$ $z$ তখন যেখানে

\frac{\partial E}{\partial z_{k}} = \sum_{j} t_{j} (o_{k} - δ_{j k}) = o_{k} (\sum_{j} t_{j}) - t_{k} ⟹ \frac{\partial E}{\partial z_{k}} = o_{k} τ - t_{k}

$\frac{\partial E}{\partial z_k}=\sum_jt_j(o_k-\delta_{jk})=o_k\left(\sum_jt_j\right)-t_k \implies \frac{\partial E}{\partial z_k}=o_k\tau-t_k$

τ = \sum_{j} t_{j}

$\tau=\sum_jt_j$ স্থির থাকে (প্রদত্ত

ভেক্টরের জন্য)।

t

$t$

এটি আপনার ফলাফল থেকে প্রথম পার্থক্য দেখায়: আর । নোট করুন যে টিপিকাল ক্ষেত্রে আমাদের কাছে "ওয়ান-হট" থাকে $t_k$ $o_k$ $t$ (আপনার প্রথম লিঙ্কে উল্লিখিত হিসাবে)। $\tau=1$

দ্বিতীয় অসঙ্গতি, যদি আমি সঠিকভাবে বুঝতে পারি তবে তা হ'ল " " যা ইনপুট $o$ $z$ "হওয়ার সম্ভবনা " যে softmax থেকে আউটপুট। আমি ভাবব যে এটি আরও বেশি বোঝায় যে এটি নেটওয়ার্ক আর্কিটেকচারে আসলে "আরও পিছনে"? $o$

এই ভেক্টরকে , আমাদের তখন $y$

z_{k} = \sum_{i} w_{i k} y_{i} + b_{k} ⟹ \frac{\partial z_{k}}{\partial w_{p q}} = \sum_{i} y_{i} \frac{\partial w_{i k}}{\partial w_{p q}} = \sum_{i} y_{i} δ_{i p} δ_{k q} = δ_{k q} y_{p}

$z_k=\sum_iw_{ik}y_i+b_k \implies \frac{\partial z_k}{\partial w_{pq}}=\sum_iy_i\frac{\partial w_{ik}}{\partial w_{pq}}=\sum_iy_i\delta_{ip}\delta_{kq}=\delta_{kq}y_p$

পরিশেষে, ওজন-ম্যাট্রিক্স সম্পর্কিত এর গ্রেডিয়েন্ট পেতে আমরা চেইন বিধি use ব্যবহার করি $E$ $w$ চূড়ান্ত এক্সপ্রেশন দিচ্ছে (এক-হট, অর্থাৎ)

\frac{\partial E}{\partial w_{p q}} = \sum_{k} \frac{\partial E}{\partial z_{k}} \frac{\partial z_{k}}{\partial w_{p q}} = \sum_{k} (o_{k} τ - t_{k}) δ_{k q} y_{p} = y_{p} (o_{q} τ - t_{q})

$\frac{\partial E}{\partial w_{pq}}=\sum_k\frac{\partial E}{\partial z_k}\frac{\partial z_k}{\partial w_{pq}}=\sum_k(o_k\tau-t_k)\delta_{kq}y_p=y_p(o_q\tau-t_q)$

t

$t$

τ = 1

$\tau=1$

যেখানে

হল সর্বনিম্ন স্তরের ইনপুট (আপনার উদাহরণের)।

\frac{\partial E}{\partial w_{i j}} = y_{i} (o_{j} - t_{j})

$\frac{\partial E}{\partial w_{ij}}=y_i(o_j-t_j)$

y

$y$

এই শো আপনার ফলাফল থেকে একটি দ্বিতীয় পার্থক্য তাই: " " সম্ভবতঃ নিচে পর্যায় থেকে হওয়া উচিত , যা আমি কল উপরে স্তর, বরং (যা )। $o_i$ $z$ $y$ $z$ $o$

আশা করি এটি সাহায্য করবে। এই ফলাফল কি আরও সামঞ্জস্যপূর্ণ বলে মনে হচ্ছে?

আপডেট: মন্তব্যগুলিতে ওপেনের একটি প্রশ্নের জবাবে, এখানে প্রথম ধাপের সম্প্রসারণ করা হচ্ছে। প্রথমে নোট করুন যে ভেক্টর চেইন রুলের সংক্ষিপ্তসার প্রয়োজন ( এখানে দেখুন )। দ্বিতীয়ত, সমস্ত গ্রেডিয়েন্ট উপাদানগুলি পাওয়ার বিষয়ে নিশ্চিত হওয়ার জন্য , আপনাকে আংশিক ডেরাইভেটিভের ডিনোমিনেটরে সর্বদা উপাদানটির জন্য একটি নতুন সাবস্ক্রিপ্ট চিঠি প্রবর্তন করা উচিত । সুতরাং সম্পূর্ণ শৃঙ্খলা বিধি সহ গ্রেডিয়েন্টটি সম্পূর্ণরূপে লিখতে আমাদের এবং
$\frac{\partial E}{\partial w_{p q}} = \sum_{i} \frac{\partial E}{\partial o_{i}} \frac{\partial o_{i}}{\partial w_{p q}}$ $\frac{\partial E}{\partial w_{pq}}=\sum_i \frac{\partial E}{\partial o_i}\frac{\partial o_i}{\partial w_{pq}}$ so $\frac{\partial o_{i}}{\partial w_{p q}} = \sum_{k} \frac{\partial o_{i}}{\partial z_{k}} \frac{\partial z_{k}}{\partial w_{p q}}$ $\frac{\partial o_i}{\partial w_{pq}}=\sum_k \frac{\partial o_i}{\partial z_k}\frac{\partial z_k}{\partial w_{pq}}$ অনুশীলন পূর্ণ summations, কমাতে কারণ আপনার অনেক পাওয়াশর্তাবলী। যদিও এতে প্রচুর পরিমাণে "অতিরিক্ত" সংক্ষিপ্তসার এবং সাবস্ক্রিপ্ট জড়িত রয়েছে, সম্পূর্ণ চেইন নিয়মটি ব্যবহার করা আপনাকে সর্বদা সঠিক ফলাফলটি নিশ্চিত করবে। $\frac{\partial E}{\partial w_{p q}} = \sum_{i} [\frac{\partial E}{\partial o_{i}} (\sum_{k} \frac{\partial o_{i}}{\partial z_{k}} \frac{\partial z_{k}}{\partial w_{p q}})]$ $\frac{\partial E}{\partial w_{pq}}=\sum_i \left[ \frac{\partial E}{\partial o_i}\left(\sum_k \frac{\partial o_i}{\partial z_k}\frac{\partial z_k}{\partial w_{pq}}\right) \right]$ $\delta_{ab}$

— GeoMatt22
সূত্র

"ব্যাকপ্রপ / অটোডিফ" সম্প্রদায় কীভাবে এই সমস্যাগুলি করে তা আমি নিশ্চিত নই, তবে আমি যখনই শর্টকাট নেওয়ার চেষ্টা করি তখন আমি ত্রুটিগুলি দায়বদ্ধ। সুতরাং আমি এখানে এখানে শেষ করছি, সম্পূর্ণ সাবস্ক্রিপিং সহ সংক্ষিপ্তসারগুলির শর্তে সবকিছু লিখছি এবং প্রতিটি ডেরাইভেটিভের জন্য সর্বদা নতুন সাবস্ক্রিপ্টগুলি প্রবর্তন করছি। ( এখানে আমার উত্তরের অনুরূপ ... আমি আশা করি আমি কমপক্ষে শেষ পর্যন্ত সঠিক ফলাফল

— দিচ্ছি

আমি ব্যক্তিগতভাবে দেখতে পেয়েছি যে আপনি সমস্ত কিছু লিখে রেখেছিলেন তা অনুসরণ করা আরও সহজ করে তোলে। ফলাফলগুলি আমার কাছে সঠিক দেখাচ্ছে।

— জেনকার

যদিও আমি এখনও আপনার প্রতিটি পদক্ষেপের পুরোপুরি বুঝতে চেষ্টা করছি, আমি কিছু মূল্যবান অন্তর্দৃষ্টি পেয়েছি যা সামগ্রিক চিত্রটি আমাকে সাহায্য করেছিল। আমি অনুমান এবং অঙ্কের বিষয়গুলিতে আরও পড়তে হবে বলে আমার ধারণা। তবে আপনার ই

— সামিটের

o_{j_{1}} = \frac{e^{z_{j_{1}}}}{Ω}

$o_{j_1}=\frac{e^{z_{j_1}}}{\Omega}$

o_{j_{1}} = \frac{e^{z_{j_{1}}}}{Ω}

$o_{j_1}=\frac{e^{z_{j_1}}}{\Omega}$

Ω = e^{z_{j_{1}}} + e^{z_{j_{2}}}

$\Omega=e^{z_{j_1}}+e^{z_{j_2}}$

E = - (t_{1} l o g o_{j_{1}} + t_{2} l o g o_{j_{2}}) = - (t_{1} (z_{j_{1}} - l o g (Ω)) + t_{2} (z_{j_{2}} - l o g (Ω)))

$E=-(t_1 log o_{j_1}+t_2 log o_{j_2})=-(t_1(z_{j_1}-log(\Omega))+t_2(z_{j_2}-log(\Omega)))$

\frac{\partial E}{\partial (z_{j_{1}}} = - (t_{1} - t_{1} \frac{e^{z_{j_{1}}}}{Ω} - t_{2} \frac{e^{z_{j_{2}}}}{Ω}) = - t_{1} + o_{j_{1}} (t_{1} + t_{2})

$\frac{\partial E}{\partial (z_{j_1}}=-(t_1-t_1 \frac{e^{z_{j_1}}}{\Omega}-t_2 \frac{e^{z_{j_2}}}{\Omega})=-t_1+o_{j_1}(t_1+t_2)$

তবে আমার কাছে আরও একটি প্রশ্ন হ'ল: পরিবর্তে

\frac{\partial E}{\partial w_{i j}} = \frac{\partial E}{\partial o_{j}} \frac{\partial o_{j}}{\partial z_{j}} \frac{\partial z_{j}}{\partial w_{i j}}

$\frac{\partial E} {\partial w_{ij}}=\frac{\partial E} {\partial o_j} \frac{\partial o_j} {\partial z_{j}} \frac{\partial z_j} {\partial w_{ij}}$

\frac{\partial E}{\partial w_{i j}} = \frac{\partial E}{\partial z_{j}} \frac{\partial z_{j}}{\partial w_{i j}}

$\frac{\partial E} {\partial w_{ij}}=\frac{\partial E} {\partial z_{j}} \frac{\partial z_j} {\partial w_{ij}}$

\partial o_{j}

$\partial o_j$

12

@ জিওম্যাট 22 এর উত্তরটি সঠিক হলেও আমি ব্যক্তিগতভাবে সমস্যাটিকে খেলনার উদাহরণে হ্রাস করতে এবং ছবি আঁকার জন্য খুব দরকারী বলে মনে করেছি:

$h$ $w$ $\mathbf{t}$

এল = - {টি}_{1} লগ ণ_{1} - {টি}_{2} লগ ণ_{2}

$L=-t_1\log o_1 -t_2\log o_2$

ণ_{1} = \frac{মেপুঃ (Y_{1})}{মেপুঃ (Y_{1}) + + মেপুঃ (Y_{2})}

$o_1 = \frac{\exp(y_1)}{\exp(y_1) + \exp(y_2)}$

ণ_{2} = \frac{মেপুঃ (Y_{2})}{মেপুঃ (Y_{1}) + + মেপুঃ (Y_{2})}

$o_2 = \frac{\exp(y_2)}{\exp(y_1) + \exp(y_2)}$

Y_{1} = W_{11} জ_{1} + + W_{21} জ_{2} + + W_{31} জ_{3}

$y_1 = w_{11}h_1 + w_{21}h_2 + w_{31}h_3$

Y_{2} = W_{12} জ_{1} + + W_{22} জ_{2} + + W_{32} জ_{3}

$y_2 = w_{12}h_1 + w_{22}h_2 + w_{32}h_3$

$w_{21}$ $w$

$y_1$ $w_{21}$

\frac{\partial এল}{\partial ণ_{1}} = - \frac{{টি}_{1}}{ণ_{1}}

$\frac{\partial L}{\partial o_1} = -\frac{t_1}{o_1}$

\frac{\partial এল}{\partial ণ_{2}} = - \frac{{টি}_{2}}{ণ_{2}}

$\frac{\partial L}{\partial o_2} = -\frac{t_2}{o_2}$

\frac{\partial ণ_{1}}{\partial Y_{1}} = \frac{মেপুঃ (Y_{1})}{মেপুঃ (Y_{1}) + + মেপুঃ (Y_{2})} - {(\frac{মেপুঃ (Y_{1})}{মেপুঃ (Y_{1}) + + মেপুঃ (Y_{2})})}^{2} = ণ_{1} (1 - ণ_{1})

$\frac{\partial o_1}{\partial y_1} = \frac{\exp(y_1)}{\exp(y_1) + \exp(y_2)} - \left(\frac{\exp(y_1)}{\exp(y_1) + \exp(y_2)}\right)^2 = o_1(1 - o_1)$

\frac{\partial ণ_{2}}{\partial Y_{1}} = \frac{- মেপুঃ (Y_{2}) মেপুঃ (Y_{1})}{(মেপুঃ (Y_{1}) + + মেপুঃ (Y_{2}))^{2}} = - ণ_{2} ণ_{1}

$\frac{\partial o_2}{\partial y_1} = \frac{-\exp(y_2)\exp(y_1)}{(\exp(y_1) + \exp(y_2))^2} = -o_2o_1$

\frac{\partial Y_{1}}{\partial W_{21}} = জ_{2}

$\frac{\partial y_1}{\partial w_{21}} = h_2$

\begin{aligned} \frac{\partial এল}{\partial W_{21}} & = \frac{\partial এল}{\partial ণ_{1}} \frac{\partial ণ_{1}}{\partial Y_{1}} \frac{\partial Y_{1}}{\partial W_{21}} + + \frac{\partial এল}{\partial ণ_{2}} \frac{\partial ণ_{2}}{\partial Y_{1}} \frac{\partial Y_{1}}{\partial W_{21}} \\ = \frac{- {টি}_{1}}{ণ_{1}} [ণ_{1} (1 - ণ_{1})] জ_{2} + + \frac{- {টি}_{2}}{ণ_{2}} (- ণ_{2} ণ_{1}) জ_{2} \\ = জ_{2} ({টি}_{2} ণ_{1} - {টি}_{1} + + {টি}_{1} ণ_{1}) \\ = জ_{2} (ণ_{1} ({টি}_{1} + + {টি}_{2}) - {টি}_{1}) \\ = জ_{2} (ণ_{1} - {টি}_{1}) \end{aligned}

$\begin{align} \frac{\partial L}{\partial w_{21}} &= \frac{\partial L}{\partial o_1}\frac{\partial o_1}{\partial y_1}\frac{\partial y_1}{\partial w_{21}} + \frac{\partial L}{\partial o_2}\frac{\partial o_2}{\partial y_1}\frac{\partial y_1}{\partial w_{21}}\\ &= \frac{-t_1}{o_1}[o_1(1 - o_1)]h_2 + \frac{-t_2}{o_2}(-o_2 o_1)h_2\\ &= h_2(t_2 o_1 - t_1 + t_1 o_1)\\ &= h_2(o_1(t_1 + t_2) - t_1)\\ &= h_2(o_1 - t_1) \end{align}$

নোট করুন যে শেষ ধাপে, $t_1 + t_2 = 1$ কারণ ভেক্টর $\mathbf{t}$ এক-গরম ভেক্টর।

— বিবেক সুব্রহ্মণিয়ান
সূত্র

অবশেষে এটিই আমার পক্ষে পরিষ্কার হয়ে গেল! দুর্দান্ত এবং মার্জিত ব্যাখ্যা !!!!

— সন্তোষগুপ্ত 7

2

আপনি দুজনেই আমার পোস্টটি পড়ে উপভোগ করেছেন এবং উপকৃত হয়েছেন বলে আমি আনন্দিত! এটি লিখে এবং এটি ব্যাখ্যা করা আমার পক্ষেও সহায়ক ছিল।

— বিবেক সুব্রমনিয়ান

@VivekSubramanian should it be

= \frac{- t_{1}}{o_{1}} [o_{1} (1 - o_{1})] h_{2} + \frac{- t_{2}}{o_{2}} (- o_{2} o_{1}) h_{2}

$= \frac{-t_1}{o_1}[o_1(1 - o_1)]h_2 + \frac{-t_2}{o_2}(-o_2 o_1)h_2\\$ instead ?

— কোরিয়াকিন্প

You’re right - it was a typo! I will make the change.

— Vivek Subramanian

The thing i do not understand here is that you also assign logits (unscaled scores) to some neurons. (o is softmaxed logits (predictions) and y is logits in your case). However, this is not the case normally, is not it? Look at this picture ( o_out1 is prediction and o_in1 is logits) so how is it possible in this case how can you find the partial derivative of o2 with respect to y1?

— ARAT

6

In place of the $\{o_i\},\,$ I want a letter whose uppercase is visually distinct from its lowercase. So let me substitute $\{y_i\}$ . Also, let's use the variable $\{p_i\}$ to designate the $\{o_i\}$ from the previous layer.

Let $Y$ be the diagonal matrix whose diagonal equals the vector $y$ , i.e.

Y = D i a g (y)

$Y={\rm Diag}(y)$ Using this new matrix variable and the Frobenius Inner Product we can calculate the gradient of

E

$E$ wrt

W

$W$ .

\begin{aligned} z & = W p + b & d z = d W p \\ y & = s o f t m a x (z) & d y = (Y - y y^{T}) d z \\ E & = - t : \log (y) & d E = - t : Y^{- 1} d y \\ d E & = - t : Y^{- 1} (Y - y y^{T}) d z \\ = - t : (I - 1 y^{T}) d z \\ = - t : (I - 1 y^{T}) d W p \\ = (y 1^{T} - I) t p^{T} : d W \\ = ((1^{T} t) y p^{T} - t p^{T}) : d W \\ \frac{\partial E}{\partial W} & = (1^{T} t) y p^{T} - t p^{T} \end{aligned}

$\eqalign{ z &= Wp+b &dz= dWp \cr y &= {\rm softmax}(z) &dy = (Y-yy^T)\,dz \cr E &= -t:\log(y) &dE = -t:Y^{-1}dy \cr\cr dE &= -t:Y^{-1}(Y-yy^T)\,dz \cr &= -t:(I-1y^T)\,dz \cr &= -t:(I-1y^T)\,dW\,p \cr &= (y1^T-I)tp^T:dW \cr &= ((1^Tt)yp^T - tp^T):dW \cr\cr \frac{\partial E}{\partial W} &= (1^Tt)yp^T - tp^T \cr }$

— frank
সূত্র

6

Here is one of the cleanest and well written notes that I came across the web which explains about "calculation of derivatives in backpropagation algorithm with cross entropy loss function".

— yottabytt
সূত্র

In the given pdf how did equation 22 become equation 23? As in how did the Summation(k!=i) get a negative sign. Shouldn't it get a positive sign? Like Summation(Fn)(For All K) = Fn(k=i) + Summation(Fn)(k!=i) should be happening according to my understanding.

— faizan

1

Here's a link explaining the softmax and its derivative.

It explains the reason for using i=j and i!=j.

— এস মুহাম্মদ এইচ মোস্তফা
সূত্র

ভবিষ্যতে এই লিঙ্কটি নষ্ট হয়ে যাওয়ার ক্ষেত্রে, একটি ন্যূনতম, একা একা উত্তর দেওয়ার পরামর্শ দেওয়া হচ্ছে। অন্যথায়, এটি ভবিষ্যতে আর ব্যবহারকারীদের আর সাহায্য করবে না।

— লুচোনাচো

0

অন্যান্য উত্তরগুলি ডেরাইভেটিভ গণনা করার সঠিক উপায় সরবরাহ করেছে তবে আপনি কোথায় ভুল করেছেন তা সেগুলি নির্দেশ করে না। আসলে, $t_j$ আপনার সর্বশেষ সমীকরণে সর্বদা 1, কারণ আপনি এটি ধরে নিয়েছেন $o_j$ আপনার আউটপুটে লক্ষ্য 1 এর নোড নেয়; $o_j$ অন্যান্য নোডের সম্ভাব্যতার বিভিন্ন ধরণের ক্রিয়াকলাপ রয়েছে, সুতরাং এটি বিভিন্ন ধরণের ডেরিভেটিভের দিকে পরিচালিত করে, তাই আপনারা এখন বুঝতে হবে যে অন্যান্য লোকেরা কেন চিকিত্সা করেছে $i=j$ এবং $i\neq j$ differently.

— kuixiong
সূত্র