ব্যাচের নরমালাইজেশন সহ ব্যাকরোপ্যাগেশনের ম্যাট্রিক্স ফর্ম

ব্যাচ নরমালাইজেশন গভীর নিউরাল নেটগুলিতে যথেষ্ট পারফরম্যান্স উন্নতির জন্য জমা দেওয়া হয়েছে। ইন্টারনেটে প্রচুর পরিমাণে উপাদান দেখায় যে কীভাবে এটি অ্যাক্টিভেশন-বাই-অ্যাক্টিভেশন ভিত্তিতে প্রয়োগ করা যায়। আমি ইতিমধ্যে ম্যাট্রিক্স বীজগণিত ব্যবহার করে ব্যাকপ্রপ বাস্তবায়ন করেছি এবং দিয়েছি যে আমি উচ্চ স্তরের ভাষায় Rcpp(এবং শেষ পর্যন্ত forজিপিইউ'র উপর নির্ভর করে ঘন ম্যাট্রিক্স গুণনের জন্য) কাজ করছি, সবকিছু ছিঁড়ে ফেলেছি এবং লুপগুলিতে অবলম্বন করার ফলে আমার কোডটি ধীর হয়ে যাবে যথেষ্ট পরিমাণে ব্যথা ছাড়াও।

ব্যাচের সাধারণকরণের ফাংশনটি হল যেখানে

b (x_{p}) = γ (x_{p} - μ_{x_{p}}) σ_{x_{p}}^{- 1} + β

$b(x_p) = \gamma \left(x_p - \mu_{x_p}\right) \sigma^{-1}_{x_p} + \beta$

$x_p$ এটি সক্রিয় হওয়ার আগে হ'ল ম নোড $p$
$\gamma$ এবং স্কেলার পরামিতি $\beta$
$\mu_{x_p}$ এবং গড় এবং এর এসডি হয় । (নোট করুন যে বৈকল্পিকের বর্গমূল মূল এবং একটি ফজ ফ্যাক্টর সাধারণত ব্যবহৃত হয় - আসুন কমপ্যাক্টনেসের জন্য ননজারো উপাদানগুলি ধরে নিই) $\sigma_{x_p}$ $x_p$

ম্যাট্রিক্স ফর্মে, পুরো স্তরের ব্যাচের সাধারণকরণ হবে যেখানে

b (X) = (γ \otimes 1_{p}) ⊙ (X - μ_{X}) ⊙ σ_{X}^{- 1} + (β \otimes 1_{p})

$b(\mathbf{X}) = \left(\gamma\otimes\mathbf{1}_p\right)\odot \left(\mathbf{X} - \mu_{\mathbf{X}}\right) \odot\sigma^{-1}_{\mathbf{X}} + \left(\beta\otimes\mathbf{1}_p\right)$

$\mathbf{X}$ হ'ল $N\times p$
$\mathbf{1}_N$ একটি কলাম ভেক্টর
$\gamma$ এবং এখন প্রতি-স্তর স্বাভাবিককরণের পরামিতিগুলির সারি ভেক্টর $\beta$ $p$
$\mu_{\mathbf{X}}$ এবং হল ম্যাট্রিক্স, যেখানে প্রতিটি কলামটি কলাম অনুসারে মানে এবং মানক বিচ্যুতির একটি -ভেক্টর where $\sigma_{\mathbf{X}}$ $N \times p$ $N$
$\otimes$ ক্রোনেকার পণ্য এবং এলিমেন্টওয়াইজ (হাদামারড) পণ্য $\odot$

একটি খুব সাধারণ এক-স্তরীয় নিউরাল নেট যা কোনও ব্যাচের সাধারণকরণ এবং একটি অবিচ্ছিন্ন ফলাফল হ'ল

y = a ({X Γ}_{1}) Γ_{2} + ϵ

$y = a\left(\mathbf{X\Gamma}_1\right)\Gamma_2 + \epsilon$

কোথায়

$\Gamma_1$ হয় $p_1 \times p_2$
$\Gamma_2$ হয় $p_2 \times 1$
$a(.)$ হল অ্যাক্টিভেশন ফাংশন

লোকসানটি যদি , তবে গ্রেডিয়েন্টগুলি $R = N^{-1}\displaystyle\sum\left(y - \hat{y}\right)^2$

\begin{array}{lr} \frac{\partial R}{\partial Γ_{1}} = - 2 V^{T} \hat{ϵ} \\ \frac{\partial R}{\partial Γ_{2}} = X^{T} (a^{'} (X Γ_{1}) ⊙ - 2 \hat{ϵ} Γ_{2}^{T}) \end{array}

$\begin{array}{lr} \frac{\partial R}{\partial \Gamma_1} = -2\mathbf{V}^T \hat\epsilon\\ \frac{\partial R}{\partial \Gamma_2} = \mathbf{X}^T \left(a'(\mathbf{X}\mathbf{\Gamma}_1) \odot -2\hat\epsilon \mathbf{\Gamma}_2^T\right) \\ \end{array}$

কোথায়

$\mathbf{V} = a\left(\mathbf{X}\Gamma_1\right)$
$\hat{\epsilon} = y-\hat{y}$

ব্যাচের সাধারণকরণের অধীনে বা ডেরাইভেটিভগুলি কীভাবে গণনা করা যায় তা সম্পর্কে আমার কোনও ধারণা নেই। ক্রোনেকার পণ্যগুলির বিষয়ে, সাহিত্যটি মোটামুটি আরকেন হয়।

y = a (b (X Γ_{1})) Γ_{2}

$y = a\left(b\left(\mathbf{X}\Gamma_1\right)\right)\Gamma_2$

y = a ((γ \otimes 1_{N}) ⊙ (X Γ_{1} - μ_{X Γ_{1}}) ⊙ σ_{X Γ_{1}}^{- 1} + (β \otimes 1_{N})) Γ_{2}

$y = a\Big(\left(\gamma\otimes\mathbf{1}_N\right)\odot \left(\mathbf{X\Gamma_1} - \mu_{\mathbf{X\Gamma_1}}\right) \odot\sigma^{-1}_{\mathbf{X\Gamma_1}} + \left(\beta\otimes\mathbf{1}_N\right)\Big)\mathbf{\Gamma_2}$

ম্যাট্রিক্স কাঠামোর মধ্যে , এবং গণনা করার ব্যবহারিক উপায় কি ? নোড-বাই-নোডের গণনা অবলম্বন না করে একটি সাধারণ অভিব্যক্তি? $\partial R/\partial \gamma$ $\partial R/\partial \beta$ $\partial R/\partial \mathbf{\Gamma_1}$

আপডেট 1:

আমি বের করেছি - সাজানো। এটি হ'ল: কিছু আর কোড দেখায় যে এটি করা লুপিংয়ের সমতুল্য। প্রথমে জাল তথ্য সেট আপ করুন: $\partial R/\partial \beta$

1_{N}^{T} (a^{'} (X Γ_{1}) ⊙ - 2 \hat{ϵ} Γ_{2}^{T})

$\mathbf{1}_{N}^T \left(a'(\mathbf{X}\mathbf{\Gamma}_1) \odot -2\hat\epsilon \mathbf{\Gamma}_2^T\right)$

set.seed(1)
library(dplyr)
library(foreach)

#numbers of obs, variables, and hidden layers
N <- 10
p1 <- 7
p2 <- 4
a <- function (v) {
  v[v < 0] <- 0
  v
}
ap <- function (v) {
  v[v < 0] <- 0
  v[v >= 0] <- 1
  v
}

# parameters
G1 <- matrix(rnorm(p1*p2), nrow = p1)
G2 <- rnorm(p2)
gamma <- 1:p2+1
beta <- (1:p2+1)*-1
# error
u <- rnorm(10)

# matrix batch norm function
b <- function(x, bet = beta, gam = gamma){
  xs <- scale(x)
  gk <- t(matrix(gam)) %x% matrix(rep(1, N))
  bk <- t(matrix(bet)) %x% matrix(rep(1, N))
  gk*xs+bk
}
# activation-wise batch norm function
bi <- function(x, i){
  xs <- scale(x)
  gk <- t(matrix(gamma[i]))
  bk <- t(matrix(beta[i]))
  suppressWarnings(gk*xs[,i]+bk)
}

X <- round(runif(N*p1, -5, 5)) %>% matrix(nrow = N)
# the neural net
y <- a(b(X %*% G1)) %*% G2 + u

তারপরে গণনা ডেরাইভেটিভস:

# drdbeta -- the matrix way
drdb <- matrix(rep(1, N*1), nrow = 1) %*% (-2*u %*% t(G2) * ap(b(X%*%G1)))
drdb
           [,1]      [,2]    [,3]        [,4]
[1,] -0.4460901 0.3899186 1.26758 -0.09589582
# the looping way
foreach(i = 1:4, .combine = c) %do%{
  sum(-2*u*matrix(ap(bi(X[,i, drop = FALSE]%*%G1[i,], i)))*G2[i])
}
[1] -0.44609015  0.38991862  1.26758024 -0.09589582

তারা মিলছে। তবে আমি এখনও বিভ্রান্ত, কারণ আমি জানি না কেন এটি কাজ করে। @ মার্ক এল স্টোন দ্বারা রেফারেন্সযুক্ত ম্যাটকাল্যাক নোটগুলি বলে যে হওয়া উচিত $\beta \otimes \mathbf{1}_N$

\frac{\partial A \otimes B}{\partial A} = (I_{n q} \otimes T_{m p}) (I_{n} \otimes v e c (B) \otimes I_{m})

$\frac{\partial A \otimes B}{\partial A} = \left(I_{nq} \otimes T_{mp}\right)\left(I_n\otimes vec(B) \otimes I_m\right)$ যেখানে সাবস্ক্রিপ্টগুলোর , , এবং , এর মাত্রা হয় এবং । হল পরিবহণ ম্যাট্রিক্স, যা এখানে মাত্র 1 কারণ উভয় ইনপুট ভেক্টর। আমি এটি চেষ্টা করেছিলাম এবং এমন একটি ফলাফল পেয়েছি যা সহায়ক বলে মনে হচ্ছে না:

m

$m$

n

$n$

p

$p$

q

$q$

A

$A$

B

$B$

T

$T$

# playing with the kroneker derivative rule
A <- t(matrix(beta)) 
B <- matrix(rep(1, N))
diag(rep(1, ncol(A) *ncol(B))) %*% diag(rep(1, ncol(A))) %x% (B) %x% diag(nrow(A))
     [,1] [,2] [,3] [,4]
 [1,]    1    0    0    0
 [2,]    1    0    0    0
 snip
[13,]    0    1    0    0
[14,]    0    1    0    0
snip
[28,]    0    0    1    0
[29,]    0    0    1    0
[snip
[39,]    0    0    0    1
[40,]    0    0    0    1

এটি উপযুক্ত নয়। স্পষ্টতই আমি ক্রোনেকার ডেরিভেটিভ বিধিগুলি বুঝতে পারছি না। যারা সাহায্য করবে দুর্দান্ত হবে। এবং - এর জন্য আমি এখনও অন্যান্য ডেরাইভেটিভগুলিতে পুরোপুরি আটকে আছি - এগুলি আরও শক্ত কারণ তারা করে না। $\gamma$ $\mathbf{\Gamma_1}$ $\beta \otimes \mathbf{1}$

আপডেট 2

পাঠ্যপুস্তক পড়া, আমি মোটামুটি নিশ্চিত যে এবং অপারেটরের ব্যবহারের প্রয়োজন হবে । তবে কোডগুলিতে তাদের অনুবাদ করতে সক্ষম হওয়ায় আমি স্পষ্টতই ডেরাইভেশনগুলি অনুসরণ করতে অক্ষম। উদাহরণস্বরূপ, of এর ডেরিভেটিভকে সাথে গ্রহণ করার ক্ষেত্রে জড়িত হতে , যেখানে (যা আমরা এই মুহুর্তের জন্য ধ্রুবক ম্যাট্রিক্স হিসাবে বিবেচনা করতে পারি)। $\partial R/\partial \Gamma_1$ $\partial R/\partial \gamma$ vec() $\partial R/\partial \Gamma_1$ $w\odot\mathbf{X\Gamma_1}$ $\mathbf{\Gamma_1}$ $w \equiv (\gamma \otimes \mathbf{1}) \odot \sigma_{\mathbf{X\Gamma_1}}^{-1}$

আমার প্রবৃত্তি কেবল বলতে "উত্তর হল ", কিন্তু কাজ স্পষ্টত এই নয় যে কারণ সঙ্গে অনুরূপ নয় । $w\odot\mathbf{X}$ $w$ $\mathbf{X}$

আমি জানি যে

\partial (A ⊙ B) = \partial A ⊙ B + A ⊙ \partial B

$\partial(A \odot B) = \partial A \odot B + A \odot \partial B$

এবং এই থেকে , যে

\frac{\partial v e c (w ⊙ X Γ_{1})}{\partial v e c (Γ_{1})^{T}} = v e c (X Γ_{1}) I \frac{\partial v e c (w)}{\partial v e c (Γ_{1})^{T}} + v e c (w) I \frac{\partial v e c (X Γ_{1})}{\partial v e c (Γ_{1})^{T}}

$\frac{\partial vec(w \odot \mathbf{X\Gamma_1})}{\partial vec(\mathbf{\Gamma_1})^T} = vec(\mathbf{X\Gamma_1})I\frac{\partial vec(w)}{\partial vec(\mathbf{\Gamma_1})^T} + vec(w)I\frac{\partial vec(\mathbf{X\Gamma_1})}{\partial vec(\mathbf{\Gamma_1})^T}$ তবে এটি কীভাবে মূল্যায়ন করা যায় তা সম্পর্কে আমি অনিশ্চিত, এটি কেবল কোড করা যাক।

আপডেট 3

এখানে অগ্রগতি হচ্ছে। এই ধারণাটি নিয়ে আমি গতকাল রাত 2 টা বেজে উঠি। ঘুমের জন্য ম্যাথ ভাল হয় না।

কিছু চিনির পরে এখানে : $\partial R/\partial \mathbf{\Gamma_1}$

$w \equiv (\gamma \otimes \mathbf{1}) \odot \sigma_{\mathbf{X\Gamma_1}}^{-1}$
$\text{"stub"} \equiv a'(b(\mathbf{X\Gamma}_1)) \odot -2\hat\epsilon \mathbf{\Gamma}_2^T$

শৃঙ্খলা নিয়মের শেষে পাওয়ার পরে আপনার কাছে যা আছে তা এখানে: এই লুপিং শুরু করে শুরু করুন - এবং কলাম সাবস্ক্রিপ্ট করবে এবং a একটি উপযোগী পরিচয় ম্যাট্রিক্স:

\frac{\partial R}{\partial Γ_{1}} = \frac{\partial w ⊙ {X Γ}_{1}}{\partial Γ_{1}} ("stub")

$\frac{\partial R}{\partial \Gamma_1} = \frac{\partial w \odot \mathbf{X\Gamma}_1}{\partial \Gamma_1}\left(\text{"stub"}\right)$

i

$i$

j

$j$

I

$\mathbf{I}$

\frac{\partial R}{\partial Γ_{i j}} = {(w_{i} ⊙ X_{i})}^{T} ({"stub"}_{j})

$\frac{\partial R}{\partial \Gamma_{ij}} = \left(w_i \odot \mathbf{X_i}\right)^T\left(\text{"stub"}_j\right)$

\frac{\partial R}{\partial Γ_{i j}} = {(I w_{i} X_{i})}^{T} ({"stub"}_{j})

$\frac{\partial R}{\partial \Gamma_{ij}} = \left(\mathbf{I} w_i \mathbf{X_i}\right)^T\left(\text{"stub"}_j\right)$

\frac{\partial R}{\partial Γ_{i j}} = {X_{i}}^{T} I w_{i} ({"stub"}_{j})

$\frac{\partial R}{\partial \Gamma_{ij}} = \mathbf{X_i}^T\mathbf{I} w_i\left(\text{"stub"}_j\right)$ tl; ডাঃ আপনি মূলত ব্যাচনরম স্কেল ফ্যাক্টরগুলি দ্বারা স্টাবকে প্রাক গুণিত করছেন। এটি এর সমতুল্য হওয়া উচিত:

\frac{\partial R}{\partial Γ} = X^{T} ("stub" ⊙ w)

$\frac{\partial R}{\partial \Gamma} = \mathbf{X}^T\left(\text{"stub"}\odot w\right)$

এবং, বাস্তবে এটি:

stub <- (-2*u %*% t(G2) * ap(b(X%*%G1)))
w <- t(matrix(gamma)) %x% matrix(rep(1, N)) * (apply(X%*%G1, 2, sd) %>% t %x% matrix(rep(1, N)))
drdG1 <- t(X) %*% (stub*w)

loop_drdG1 <- drdG1*NA
for (i in 1:7){
  for (j in 1:4){
    loop_drdG1[i,j] <- t(X[,i]) %*% diag(w[,j]) %*% (stub[,j])
  }
}

> loop_drdG1
           [,1]       [,2]       [,3]       [,4]
[1,] -61.531877  122.66157  360.08132 -51.666215
[2,]   7.047767  -14.04947  -41.24316   5.917769
[3,] 124.157678 -247.50384 -726.56422 104.250961
[4,]  44.151682  -88.01478 -258.37333  37.072659
[5,]  22.478082  -44.80924 -131.54056  18.874078
[6,]  22.098857  -44.05327 -129.32135  18.555655
[7,]  79.617345 -158.71430 -465.91653  66.851965
> drdG1
           [,1]       [,2]       [,3]       [,4]
[1,] -61.531877  122.66157  360.08132 -51.666215
[2,]   7.047767  -14.04947  -41.24316   5.917769
[3,] 124.157678 -247.50384 -726.56422 104.250961
[4,]  44.151682  -88.01478 -258.37333  37.072659
[5,]  22.478082  -44.80924 -131.54056  18.874078
[6,]  22.098857  -44.05327 -129.32135  18.555655
[7,]  79.617345 -158.71430 -465.91653  66.851965

আপডেট 4

এখানে, আমি মনে করি, এটি । প্রথম $\partial R / \partial \gamma$

$\widetilde{\mathbf{X\Gamma}} \equiv \left(\mathbf{X\Gamma} - \mu_{\mathbf{X\Gamma}}\right)\odot \sigma^{-1}_\mathbf{X\Gamma}$
$\tilde\gamma \equiv \gamma \otimes\mathbf{1}_N$

আগের মত, শৃঙ্খলা নিয়ম আপনাকে লুপিং আপনাকে যা পূর্বের মত মূলত প্রাক-গুণিত করে। সুতরাং এটি সমান হতে হবে:

\frac{\partial R}{\partial \tilde{γ}} = \frac{\partial \tilde{γ} ⊙ \tilde{X Γ}}{\partial \tilde{γ}} ("stub")

$\frac{\partial R}{\partial \tilde\gamma} = \frac{\partial \tilde\gamma \odot \widetilde{\mathbf{X\Gamma}}}{\partial \tilde\gamma}\left(\text{"stub"}\right)$

\frac{\partial R}{\partial {\tilde{γ}}_{i}} = (\tilde{X Γ})_{i}^{T} I {\tilde{γ}}_{i} ({"stub"}_{i})

$\frac{\partial R}{\partial \tilde\gamma_i} = (\widetilde{\mathbf{X\Gamma}})_i^T \mathbf{I}\tilde\gamma_i \left(\text{"stub"}_i\right)$

\frac{\partial R}{\partial \tilde{γ}} = (\tilde{X Γ})^{T} ("stub" ⊙ \tilde{γ})

$\frac{\partial R}{\partial \tilde\gamma} = (\widetilde{\mathbf{X\Gamma}})^T \left(\text{"stub"} \odot \tilde\gamma \right)$

এটি মিলের ধরণের:

drdg <- t(scale(X %*% G1)) %*% (stub * t(matrix(gamma)) %x% matrix(rep(1, N)))

loop_drdg <- foreach(i = 1:4, .combine = c) %do% {
  t(scale(X %*% G1)[,i]) %*% (stub[,i, drop = F] * gamma[i])  
}

> drdg
           [,1]      [,2]       [,3]       [,4]
[1,]  0.8580574 -1.125017  -4.876398  0.4611406
[2,] -4.5463304  5.960787  25.837103 -2.4433071
[3,]  2.0706860 -2.714919 -11.767849  1.1128364
[4,] -8.5641868 11.228681  48.670853 -4.6025996
> loop_drdg
[1]   0.8580574   5.9607870 -11.7678486  -4.6025996

প্রথমটির তির্যকটি দ্বিতীয়টিতে ভেক্টরের সমান। তবে সত্য যেহেতু ডেরাইভেটিভ একটি ম্যাট্রিক্সের সাথে সম্মানজনক - যদিও একটি নির্দিষ্ট কাঠামোযুক্ত একটি, আউটপুট একই কাঠামোর সাথে একই ম্যাট্রিক্স হওয়া উচিত। আমি কি ম্যাট্রিক্স পদ্ধতির ডায়াগোনালটি নিয়ে এটিকে সহজভাবে হতে পারি? আমি নিশ্চিত নই. $\gamma$

দেখে মনে হচ্ছে আমি নিজের প্রশ্নের উত্তর দিয়েছি তবে আমি সঠিক কিনা তা নিয়ে আমি নিশ্চিত নই। এই মুহুর্তে আমি এমন একটি উত্তর গ্রহণ করব যা আমি কাকে একসাথে হ্যাক করেছি তা দৃ rig়তার সাথে প্রমাণ করে (বা অস্বীকার করে)।

while(not_answered){
  print("Bueller?")
  Sys.sleep(1)
}

— generic_user
সূত্র

ম্যাগনাস এবং নিউডেকার দ্বারা "পরিসংখ্যান এবং একনোমেট্রিক্সে অ্যাপ্লিকেশনগুলির সাথে ম্যাট্রিক্স ডিফারেনটিভাল ক্যালকুলাস" এর অধ্যায় 9 বিভাগের 14 তম সংস্করণ জানম্যাগনস.এনএল / মিসক / এমডিসি ২০০7-৩৩ অনুচ্ছেদে ক্রোনেকার পণ্যগুলির পার্থক্য রয়েছে এবং হাদামারড পণ্যের পার্থক্যের উপর অনুশীলনের সাথে সমাপ্ত হয়েছে। "নোটগুলি ম্যাট্রিক্স ক্যালকুলাস এ" পল দ্বারা এল Fackler www4.ncsu.edu/~pfackler/MatCalc.pdf Kronceker পণ্য পার্থক্যকারী উপাদান অনেক আছে

— মার্ক এল স্টোন

রেফারেন্সের জন্য ধন্যবাদ। আমি এই ম্যাটকল্ক নোটগুলি আগে খুঁজে পেয়েছি, তবে এটি হাদামারডকে কভার করে না এবং ম্যাট্রিক্স ক্যালকুলাসের কোনও নিয়ম ম্যাট্রিক্স ক্ষেত্রে প্রযোজ্য বা প্রয়োগ হয় না তা আমি কখনই নিশ্চিত নই। পণ্যের বিধি, চেইন বিধি ইত্যাদি আমি বইটি সন্ধান করব। আমি এমন একটি উত্তর গ্রহণ করব যা আমাকে

— নিজেরাই

তুমি কেন এটা করছ? কেন ক্যারাস / টেনসরফ্লো এর মতো ফ্রেমব্রোকস ব্যবহার করবেন না? এই নিম্ন স্তরের অ্যালগরিদমগুলি বাস্তবায়নের জন্য উত্পাদনশীল সময় নষ্ট করা, যা আপনি প্রকৃত সমস্যা সমাধানে ব্যবহার করতে পারেন

— আকসাকাল

আরও স্পষ্টভাবে, আমি এমন নেটওয়ার্কগুলি ফিটিং করছি যা পরিচিত প্যারাম্যাট্রিক কাঠামোকে কাজে লাগায় - ইনপুট ডেটার লিনিয়ার ইন-প্যারামিটারের উপস্থাপনা, পাশাপাশি দ্রাঘিমা / প্যানেল কাঠামোর ক্ষেত্রেও। প্রতিষ্ঠিত ফ্রেমওয়ার্কগুলি হ্যাক / সংশোধন করার ক্ষমতা ছাড়িয়ে যাওয়ার জন্য এতটা ভারী অনুকূলিত হয়েছে। প্লাস গণিত সাধারণত সহায়তা করে। প্রচুর কোডমোনকিরা কী করছে তা তাদের কোনও ধারণা নেই। তেমনি Rcppদক্ষতার সাথে এটি বাস্তবায়নের জন্য যথেষ্ট শেখা দরকারী।

— জেনেরিক_উসার

@ মার্কএল.স্টোন কেবল তাত্ত্বিকভাবে সাবলীল নয়, এটি ব্যবহারিকভাবেও সহজ! কমবেশি যান্ত্রিক প্রক্রিয়া! এবং% # $!

— জেনেরিক_উজার

সম্পূর্ণ উত্তর নয়, তবে আমি আমার মন্তব্যে যা পরামর্শ দিয়েছিলাম তা প্রদর্শনের জন্য যদি যেখানে , এবং একটি ভেক্টর, তারপরে শৃঙ্খলা নিয়ম অনুসারে যে এবং , আমরা দেখতে পেলাম

b (X) = (X - e_{N} μ_{X}^{T}) Γ Σ_{X}^{- 1 / 2} + e_{N} β^{T}

$b(X)=(X−e_N\mu_X^T)ΓΣ_X^{-1/2}+e_N\beta^T$

Γ = d i a g (γ)

$\Gamma=\mathop{\mathrm{diag}}(\gamma)$

Σ_{X}^{- 1 / 2} = d i a g (σ_{X_{1}}^{- 1}, σ_{X_{2}}^{- 1}, \dots)

$\Sigma_X^{-1/2}=\mathop{\mathrm{diag}}(\sigma_{X_1}^{-1},\sigma_{X_2}^{-1},\dots)$

e_{N}

$e_N$

\nabla_{β} R = [- 2 \hat{ϵ} (Γ_{2}^{T} \otimes I) J_{X} (a) (I \otimes e_{N})]^{T}

$\nabla_\beta R=[-2\hat{\epsilon}(\Gamma_2^T\otimes I)J_X(a)(I\otimes e_N)]^T$

- 2 \hat{ϵ} (Γ_{2}^{T} \otimes I) = v e c (- 2 \hat{ϵ} Γ_{2}^{T})^{T}

$-2\hat{\epsilon}(\Gamma_2^T\otimes I)=\mathop{\mathrm{vec}}(-2\hat{\epsilon}\Gamma_2^T)^T$

J_{X} (a) = d i a g (v e c (a^{'} (b (X Γ_{1}))))

$J_X(a)=\mathop{\mathrm{diag}}(\mathop{\mathrm{vec}}(a^\prime(b(X\Gamma_1))))$

\nabla_{β} R = (I \otimes e_{N}^{T}) v e c (a^{'} (b (X Γ_{1})) ⊙ - 2 \hat{ϵ} Γ_{2}^{T}) = e_{N}^{T} (a^{'} (b (X Γ_{1})) ⊙ - 2 \hat{ϵ} Γ_{2}^{T})

$\nabla_\beta R=(I\otimes e_N^T)\mathop{\mathrm{vec}}(a^\prime(b(X\Gamma_1))\odot-2\hat{\epsilon}\Gamma_2^T)=e_N^T(a^\prime(b(X\Gamma_1))\odot-2\hat{\epsilon}\Gamma_2^T)$ পরিচয়ের মাধ্যমে । একইভাবে, যেখানে ("স্টাব") এবং একটি

v e c (A X B) = (B^{T} \otimes A) v e c (X)

$\mathop{\mathrm{vec}}(AXB)=(B^T\otimes A)\mathop{\mathrm{vec}}(X)$

\begin{aligned} \nabla_{γ} R & = [- 2 \hat{ϵ} (Γ_{2}^{T} \otimes I) J_{X} (a) (Σ_{X Γ_{1}}^{- 1 / 2} \otimes (X Γ_{1} - e_{N} μ_{X Γ_{1}}^{T})) K]^{T} \\ = K^{T} v e c ((X Γ_{1} - e_{N} μ_{X Γ_{1}}^{T})^{T} W Σ_{X Γ_{1}}^{- 1 / 2}) \\ = d i a g ((X Γ_{1} - e_{N} μ_{X Γ_{1}}^{T})^{T} W Σ_{X Γ_{1}}^{- 1 / 2}) \end{aligned}

$\begin{align}\nabla_\gamma R&=[-2\hat{\epsilon}(\Gamma_2^T\otimes I)J_X(a)(\Sigma_{X\Gamma_1}^{-1/2}\otimes (X\Gamma_1-e_N\mu_{X\Gamma_1}^T))K]^T\\&=K^T\mathop{\mathrm{vec}}((X\Gamma_1-e_N\mu_{X\Gamma_1}^T)^TW\Sigma^{-1/2}_{X\Gamma_1})\\&=\mathop{\mathrm{diag}}((X\Gamma_1-e_N\mu_{X\Gamma_1}^T)^TW\Sigma^{-1/2}_{X\Gamma_1})\end{align}$

W = a^{'} (b (X Γ_{1})) ⊙ - 2 \hat{ϵ} Γ_{2}^{T}

$W=a^\prime(b(X\Gamma_1))\odot-2\hat{\epsilon}\Gamma_2^T$

K

$K$

N p \times p

$Np\times p$ বাইনারি ম্যাট্রিক্স যা বর্গক্ষেত্রের ম্যাট্রিক্সের তির্যক উপাদানগুলির সাথে সম্পর্কিত ক্রোনেকার পণ্যটির কলামগুলি নির্বাচন করে। এটি থেকে সত্যটি অনুসরণ করে । প্রথম গ্রেডিয়েন্টের বিপরীতে, এই অভিব্যক্তিটি আপনি যে মত প্রকাশ করেছেন তার সমতুল্য নয়। যে বিবেচনা একটি রৈখিক ফাংশন wrt হয় , সেখানে একটি গুণক করা উচিত হবে না গ্রেডিয়েন্ট হবে। আমি গ্রেডিয়েন্ট ছেড়ে ওপি, কিন্তু আমি স্থির সঙ্গে শিক্ষাদীক্ষা জন্য বলবে "বিস্ফোরণ" প্রবন্ধের লেখক এড়াতে চাইতে সৃষ্টি করে। বাস্তবে, আপনার কাছে এর Jacobians খুঁজে বের করতে হবে এবং wrt

d Γ_{i \neq j} = 0

$d\Gamma_{i\neq j}=0$

b

$b$

γ_{i}

$\gamma_i$

γ_{i}

$\gamma_i$

Γ_{1}

$\Gamma_1$

w

$w$

Σ_{X}

$\Sigma_X$

μ_{X}

$\mu_X$

X

$X$ এবং পণ্য বিধি ব্যবহার করুন।

— deasmhumnha
সূত্র