লজিস্টিক রিগ্রেশন থেকে কীভাবে ব্যয় হয় তা ব্যয় করা হয়

29

আমি কোর্সেরাতে মেশিন লার্নিং স্ট্যানফোর্ড কোর্স করছি।

লজিস্টিক রিগ্রেশন সম্পর্কিত অধ্যায়ে, ব্যয় কার্যকারিতাটি হ'ল:

তারপরে, এটি এখানে উদ্ভূত:

আমি ব্যয় ফাংশনের ডেরাইভেটিভ পাওয়ার চেষ্টা করেছি তবে আমি সম্পূর্ণ আলাদা কিছু পেয়েছি।

কীভাবে ডেরাইভেটিভ প্রাপ্ত হয়?

মধ্যস্থতাকারী পদক্ষেপগুলি কোনটি?

— octavian
সূত্র

+1, আমার প্রশ্নের এখানে @ অ্যাডামোর উত্তরটি দেখুন। stats.stackexchange.com/questions/229014/…

— দু

আপনি ইতিমধ্যে কী জানেন (সঠিক গ্রেডিয়েন্ট) আপনাকে জানানোর পাশাপাশি আপনার প্রশ্নের উত্তর দেওয়ার জন্য "সম্পূর্ণ আলাদা" সত্যিই যথেষ্ট নয়। এটি আরও কার্যকর হতে চাই যদি আপনি আমাদের গণনাগুলির ফলস্বরূপ আমাদের জানান তবে আপনি যেখানে ভুল করেছেন সেখানে আমরা আপনাকে উপকূলে সহায়তা করতে পারি।

— ম্যাথু ড্রুরি

@ ম্যাথেজড্রুরি দুঃখিত, ম্যাট, আপনার মন্তব্য আসার আগেই আমি উত্তরটি সাজিয়েছি। অক্টাভিয়ান, আপনি কি সমস্ত পদক্ষেপ অনুসরণ করেছিলেন? এটির পরে কিছু যুক্ত করার মান আমি সম্পাদনা করব ...

— আন্তনি পরেল্লদা

2

আপনি যখন "ডেরিভেটেড" বলছেন তখন কি আপনার অর্থ "ডিফারভেটেড" বা "উত্পন্ন" হয়েছে?

— গ্লেন_বি -রিনস্টেট মনিকা

41

কোর্সে থাকা নোটগুলি থেকে অভিযোজিত, যা আমি অ্যান্ড্রু এনজির কর্সেরা মেশিন লার্নিং কোর্সের পৃষ্ঠার মধ্যে শিক্ষার্থীদের দ্বারা প্রদত্ত নোটগুলির বাইরে (এই উপজাত সহ) উপলব্ধ নেই ।

এরপরে, সুপারস্ক্রিপ্ট স্বতন্ত্র পরিমাপ বা প্রশিক্ষণকে বোঝায় "উদাহরণ"। $(i)$

$\small \frac{\partial J(\theta)}{\partial \theta_j} = \frac{\partial}{\partial \theta_j} \,\frac{-1}{m}\sum_{i=1}^m \left[ y^{(i)}\log\left(h_\theta \left(x^{(i)}\right)\right) + (1 -y^{(i)})\log\left(1-h_\theta \left(x^{(i)}\right)\right)\right] \\[2ex]\small\underset{\text{linearity}}= \,\frac{-1}{m}\,\sum_{i=1}^m \left[ y^{(i)}\frac{\partial}{\partial \theta_j}\log\left(h_\theta \left(x^{(i)}\right)\right) + (1 -y^{(i)})\frac{\partial}{\partial \theta_j}\log\left(1-h_\theta \left(x^{(i)}\right)\right) \right] \\[2ex]\Tiny\underset{\text{chain rule}}= \,\frac{-1}{m}\,\sum_{i=1}^m \left[ y^{(i)}\frac{\frac{\partial}{\partial \theta_j}h_\theta \left(x^{(i)}\right)}{h_\theta\left(x^{(i)}\right)} + (1 -y^{(i)})\frac{\frac{\partial}{\partial \theta_j}\left(1-h_\theta \left(x^{(i)}\right)\right)}{1-h_\theta\left(x^{(i)}\right)} \right] \\[2ex]\small\underset{h_\theta(x)=\sigma\left(\theta^\top x\right)}=\,\frac{-1}{m}\,\sum_{i=1}^m \left[ y^{(i)}\frac{\frac{\partial}{\partial \theta_j}\sigma\left(\theta^\top x^{(i)}\right)}{h_\theta\left(x^{(i)}\right)} + (1 -y^{(i)})\frac{\frac{\partial}{\partial \theta_j}\left(1-\sigma\left(\theta^\top x^{(i)}\right)\right)}{1-h_\theta\left(x^{(i)}\right)} \right] \\[2ex]\Tiny\underset{\sigma'}=\frac{-1}{m}\,\sum_{i=1}^m \left[ y^{(i)}\, \frac{\sigma\left(\theta^\top x^{(i)}\right)\left(1-\sigma\left(\theta^\top x^{(i)}\right)\right)\frac{\partial}{\partial \theta_j}\left(\theta^\top x^{(i)}\right)}{h_\theta\left(x^{(i)}\right)} - (1 -y^{(i)})\,\frac{\sigma\left(\theta^\top x^{(i)}\right)\left(1-\sigma\left(\theta^\top x^{(i)}\right)\right)\frac{\partial}{\partial \theta_j}\left(\theta^\top x^{(i)}\right)}{1-h_\theta\left(x^{(i)}\right)} \right] \\[2ex]\small\underset{\sigma\left(\theta^\top x\right)=h_\theta(x)}= \,\frac{-1}{m}\,\sum_{i=1}^m \left[ y^{(i)}\frac{h_\theta\left( x^{(i)}\right)\left(1-h_\theta\left( x^{(i)}\right)\right)\frac{\partial}{\partial \theta_j}\left(\theta^\top x^{(i)}\right)}{h_\theta\left(x^{(i)}\right)} - (1 -y^{(i)})\frac{h_\theta\left( x^{(i)}\right)\left(1-h_\theta\left(x^{(i)}\right)\right)\frac{\partial}{\partial \theta_j}\left( \theta^\top x^{(i)}\right)}{1-h_\theta\left(x^{(i)}\right)} \right] \\[2ex]\small\underset{\frac{\partial}{\partial \theta_j}\left(\theta^\top x^{(i)}\right)=x_j^{(i)}}=\,\frac{-1}{m}\,\sum_{i=1}^m \left[y^{(i)}\left(1-h_\theta\left(x^{(i)}\right)\right)x_j^{(i)}- \left(1-y^{i}\right)\,h_\theta\left(x^{(i)}\right)x_j^{(i)} \right] \\[2ex]\small\underset{\text{distribute}}=\,\frac{-1}{m}\,\sum_{i=1}^m \left[y^{i}-y^{i}h_\theta\left(x^{(i)}\right)- h_\theta\left(x^{(i)}\right)+y^{(i)}h_\theta\left(x^{(i)}\right) \right]\,x_j^{(i)} \\[2ex]\small\underset{\text{cancel}}=\,\frac{-1}{m}\,\sum_{i=1}^m \left[y^{(i)}-h_\theta\left(x^{(i)}\right)\right]\,x_j^{(i)} \\[2ex]\small=\frac{1}{m}\sum_{i=1}^m\left[h_\theta\left(x^{(i)}\right)-y^{(i)}\right]\,x_j^{(i)}$

সিগময়েড ফাংশনের ডেরাইভেটিভ is

$\Tiny\begin{align}\frac{d}{dx}\sigma(x)&=\frac{d}{dx}\left(\frac{1}{1+e^{-x}}\right)\\[2ex] &=\frac{-(1+e^{-x})'}{(1+e^{-x})^2}\\[2ex] &=\frac{e^{-x}}{(1+e^{-x})^2}\\[2ex] &=\left(\frac{1}{1+e^{-x}}\right)\left(\frac{e^{-x}}{1+e^{-x}}\right)\\[2ex] &=\left(\frac{1}{1+e^{-x}}\right)\,\left(\frac{1+e^{-x}}{1+e^{-x}}-\frac{1}{1+e^{-x}}\right)\\[2ex] &=\sigma(x)\,\left(\frac{1+e^{-x}}{1+e^{-x}}-\sigma(x)\right)\\[2ex] &=\sigma(x)\,(1-\sigma(x)) \end{align}$

— আন্তোনি পরেল্লদা
সূত্র

1

সমস্ত প্রচেষ্টা জন্য +1 !, ম্যাট্রিক্স স্বরলিপি ব্যবহার করা সহজ হতে পারে?

— হাইটাও ডু

আমি কি লিনিয়ার রিগ্রেশন বলতে পারি, উদ্দেশ্যটি হ'ল এবং ডেরিভেটিভ , যেখানে , লজিস্টিক রিগ্রেশন এ এটি একই রকম, ডেরিভেটিভটি যেখানে , এবং ?

‖ A x - b ‖^{2}

$\|Ax-b\|^2$

2 A^{T} e

$2A^Te$

e = A x - b

$e=Ax-b$

A^{T} e

$A^Te$

e = p - b

$e=p-b$

p = sigmoid (A x)

$p=\text{sigmoid}~(Ax)$

— হাইটাও ডু

2

এজন্য আপনার প্রচেষ্টাকে আমি প্রশংসা করি। আপনি আমাদের ওপির ভাষাতে সময় কাটাবেন !!

— হাইটাও ডু

1

আমার বোধগম্যতা হ'ল এমন উত্তেজনাপূর্ণ সমস্যা রয়েছে যা স্কয়ার্ড ত্রুটি হ্রাস-অ-রৈখিক ক্রিয়াকলাপের জন্য অবাঞ্ছিত করে তোলে। ম্যাট্রিক্স স্বরলিপিতে এটি হবে ।

\frac{\partial J (θ)}{\partial θ} = \frac{1}{m} X^{⊤} (σ (X θ) - y)

$\frac{\partial J(\theta)}{\partial \theta}=\frac{1}{m}X^\top\left( \sigma(X\theta)-\mathbf y\right)$

— আন্তনি পরল্লদা

1

@ মুহম্মদ নুরাল্ডিন আমি শৃঙ্খলা বিধি প্রয়োগ করে পূর্বের লাইনে অঙ্কগুলিতে আংশিক ডেরিভেটিভ নিয়েছি।

— আন্তোনি পারেল্লদা

8

বিষয়টি নিয়ে অতিরিক্ত জটিলতার ছাপ এড়ানোর জন্য আসুন আমরা সমাধানের কাঠামোটি দেখি।

সরলকরণ এবং স্বরলিপিটির কিছু অপব্যবহারের সাথে, কে যোগফল হিসাবে একটি শব্দ হিসাবে ধরা হোক এবং এর একটি ফাংশন : $G(\theta)$ $J(\theta)$ $h = 1/(1+e^{-z})$ $z(\theta)= x \theta$

G = y \cdot \log (h) + (1 - y) \cdot \log (1 - h)

$G = y \cdot \log(h)+(1-y)\cdot \log(1-h)$

আমরা চেইন বিধি ব্যবহার করতে পারি: এবং একে একে সমাধান করুন এক ( এবং ধ্রুবক)। $\frac{d G}{d \theta}=\frac{d G}{d h}\frac{d h}{d z}\frac{d z}{d \theta}$ $x$ $y$

\frac{d G}{\partial h} = \frac{y}{h} - \frac{1 - y}{1 - h} = \frac{y - h}{h (1 - h)}

$\frac{d G}{\partial h} = \frac{y} {h} - \frac{1-y}{1-h} = \frac{y - h}{h(1-h)}$ জন্য সিগময়েড ধারণ করে, যা পূর্ববর্তী বক্তব্যের কেবল একটি বিভাজন।

\frac{d h}{d z} = h (1 - h)

$\frac{d h}{d z} = h (1-h)$

অবশেষে, । $\frac{d z}{d \theta} = x$

সব মিলিয়ে ফলাফলের সংমিশ্রণ চাওয়া-পাওয়া ভাব প্রকাশ করে: আশা যা সাহায্য করে।

\frac{d G}{d θ} = (y - h) x

$\frac{d G}{d \theta} = (y-h)x$

— garej
সূত্র

0

এই উত্তরের কৃতিত্ব মন্তব্যগুলি থেকে আন্তোনি পারেল্লাদের কাছে যায়, যা আমি মনে করি যে এই পৃষ্ঠায় আরও বিশিষ্ট স্থানের দাবি করা হয়েছে (যখন এটি অন্যান্য অনেক উত্তর উত্তর না দেয় তবে এটি আমাকে সাহায্য করেছিল)। এছাড়াও, এই একটি সম্পূর্ণ আহরণ নয় বরং একটি স্পষ্ট বিবৃতি আরো । (পুরো বিকাশের জন্য, অন্যান্য উত্তরগুলি দেখুন)। $\frac{\partial J(\theta)}{\partial \theta}$

\frac{\partial J (θ)}{\partial θ} = \frac{1}{m} \cdot X^{T} (σ (X θ) - y)

$\frac{\partial J(\theta)}{\partial \theta} = \frac{1}{m} \cdot X^T\big(\sigma(X\theta)-y\big)$

কোথায়

\begin{aligned} X \in R^{m \times n} & = Training example matrix \\ σ (z) & = \frac{1}{1 + e^{- z}} = sigmoid function = logistic function \\ θ \in R^{n} & = weight row vector \\ y & = class/category/label corresponding to rows in X \end{aligned}

$\begin{equation} \begin{aligned} X \in \mathbb{R}^{m\times n} &= \text{Training example matrix} \\ \sigma(z) &= \frac{1}{1+e^{-z}} = \text{sigmoid function} = \text{logistic function} \\ \theta \in \mathbb{R}^{n} &= \text{weight row vector} \\ y &= \text{class/category/label corresponding to rows in X} \end{aligned} \end{equation}$

এছাড়াও, নতিমাত্রা নিরূপণ অনুপস্থিত তাদের জন্য একটি পাইথন বাস্তবায়ন সম্মান সঙ্গে । $J$ $\theta$

import numpy
def sig(z):
return 1/(1+np.e**-(z))


def compute_grad(X, y, w):
    """
    Compute gradient of cross entropy function with sigmoidal probabilities

    Args: 
        X (numpy.ndarray): examples. Individuals in rows, features in columns
        y (numpy.ndarray): labels. Vector corresponding to rows in X
        w (numpy.ndarray): weight vector

    Returns: 
        numpy.ndarray 

    """
    m = X.shape[0]
    Z = w.dot(X.T)
    A = sig(Z)
    return  (-1/ m) * (X.T * (A - y)).sum(axis=1)

— CiaranWelsh
সূত্র

0

আমাদের মধ্যে যারা ক্যালকুলাসে তেমন শক্তিশালী নন, তবে ব্যয় ক্রিয়াকলাপটি সামঞ্জস্য করে খেলতে চান এবং ডেরিভেটিভস গণনা করার উপায় খুঁজে বের করতে চান ... ক্যালকুলাস পুনরায় শেখার একটি শর্ট কাট স্বয়ংক্রিয়ভাবে সরবরাহ করার জন্য এই অনলাইন সরঞ্জাম নিয়মের ধাপে ধাপে ব্যাখ্যা সহ ডাইরিভিশন।

https://www.derivative-calculator.net

— Yaoshiang
সূত্র