47

কেএল ডাইভারজেন্সের পিছনে অন্তর্নিহিততা সম্পর্কে আমি শিখেছি যেমন কোনও মডেল বিতরণ ফাংশন তাত্ত্বিক / সত্যের বিতরণের থেকে তথ্যের থেকে কতটা পৃথক। উৎস আমি পরছি বলতে যে এই দুই ডিস্ট্রিবিউশন মধ্যে 'দূরত্ব' এর স্বজ্ঞাত বোঝার সহায়ক, কিন্তু আক্ষরিক গ্রহণ করা উচিত নয় কারণ দুটি ডিস্ট্রিবিউশন যায় $P$ এবং $Q$ , কেএল বিকিরণ প্রতিসম নয় $P$ এবং $Q$ ।

আমি শেষ বিবৃতিটি কীভাবে বুঝতে পারি তা নিশ্চিত নই, বা এখানেই 'দূরত্ব' এর অন্তর্নিহিততা ভেঙে যায়?

আমি একটি সহজ, কিন্তু অন্তর্দৃষ্টিপূর্ণ উদাহরণ প্রশংসা করব।

— CGO
সূত্র

3

আমি মনে করি আপনাকে পিছনে যেতে হবে এবং বুঝতে হবে যে আপনার কাছে সত্যিকারের জনসংখ্যা বিতরণ এবং নমুনা (বা সত্য এবং মডেল) ইত্যাদির মধ্যে পরিসংখ্যানগুলিতে সাধারণত একটি অসাম্য থাকে এবং কেএল ডাইভারজেন্স এটিই প্রতিফলিত করে ... সাধারণ সম্ভাবনার তত্ত্বে নেই সাধারণত এই পার্থক্যটি এবং একটি প্রতিসম মেট্রিক আরও

— অর্থবোধ করে

1

আপনি কোন "উত্স" পড়ছেন?

— nbro

34

A (মেট্রিক) দূরত্ব $D$ অবশ্যই প্রতিসাম্য, অর্থাৎ $D(P,Q) = D(Q,P)$ । তবে, সংজ্ঞা থেকে, $KL$ নয়।

উদাহরণ: $\Omega = \{A,B\}$ , $P(A) = 0.2, P(B) = 0.8$ , $Q(A) = Q(B) = 0.5$ ।

আমাদের আছে:

K L (P, Q) = P (A) \log \frac{P (A)}{Q (A)} + P (B) \log \frac{P (B)}{Q (B)} \approx 0.19

$KL(P,Q) = P(A)\log \frac{P(A)}{Q(A)} + P(B) \log \frac{P(B)}{Q(B)} \approx 0.19$

এবং

K L (Q, P) = Q (A) \log \frac{Q (A)}{P (A)} + Q (B) \log \frac{Q (B)}{P (B)} \approx 0.22

$KL(Q,P) = Q(A)\log \frac{Q(A)}{P(A)} + Q(B) \log \frac{Q(B)}{P(B)} \approx 0.22$

এইভাবে এবং সেইজন্য এ (মেট্রিক) দূরত্ব নয়। $KL(P,Q) \neq KL(Q,P)$ $KL$

— মাইক
সূত্র

50

অন্যান্য দুর্দান্ত উত্তরের সাথে যোগ করা, অন্য দৃষ্টিভঙ্গির সাথে একটি উত্তর যা সম্ভবত আরও কিছু অন্তর্দৃষ্টি যোগ করতে পারে, যা জন্য বলা হয়েছিল।

Kullback-Leibler বিকিরণ যদি কোন বিতরণে , এবং ডেটা উত্পন্ন হয় সে সম্পর্কে দুটি অনুমান থাকেতবে

KL (P | | Q) = \int_{- \infty}^{\infty} p (x) \log \frac{p (x)}{q (x)} d x

$\DeclareMathOperator{\KL}{KL} \KL(P || Q) = \int_{-\infty}^\infty p(x) \log \frac{p(x)}{q(x)} \; dx$

X

$X$

P

$P$

Q

$Q$

পরীক্ষার জন্য সম্ভাবনা অনুপাত

বিরুদ্ধে

। আমরা দেখতে পাচ্ছি যে উপরের কুলব্যাক-লেবেলার বিচ্যুতিটি তখন বিকল্প অনুমানের অধীনে লগলিস্টিওলিটি অনুপাতের প্রত্যাশিত মান। সুতরাং,

এই পরীক্ষাটি সমস্যার অসুবিধা একটি পরিমাপ, যখন

নাল হাইপোথিসিস হয়। অপ্রতিসাম্য তাই

\frac{p (x)}{q (x)}

$\frac{p(x)}{q(x)}$

H_{0} : Q

$H_0 \colon Q$

H_{1} : P

$H_1 \colon P$

KL (P | | Q)

$\KL(P || Q)$

Q

$Q$

KL (P | | Q) \neq KL (Q | | P)

$\KL(P || Q) \not= \KL(Q || P)$ কেবল নাল এবং বিকল্প অনুমানের মধ্যে অসঙ্গতি প্রতিফলিত করে।

আসুন এটি একটি বিশেষ উদাহরণে দেখুন। যাক হতে -distribution এবং আদর্শ সাধারন বন্টনের (নীচে সংখ্যাসূচক exampe মধ্যে )। বিভক্তির সংজ্ঞা নির্ধারণকারী অবিচ্ছেদ্য জটিল দেখায়, সুতরাং আসুন আমরা আর-তে সংখ্যাসূচক একীকরণটি ব্যবহার করি: $P$ $t_\nu$ $Q$ $\nu=1$

> lLR_1  <-  function(x) {dt(x, 1, log=TRUE)-dnorm(x, log=TRUE)}  
> integrate(function(x) dt(x, 1)*lLR_1(x), lower=-Inf, upper=Inf)
Error in integrate(function(x) dt(x, 1) * lLR_1(x), lower = -Inf, upper = Inf) : 
  the integral is probably divergent

> lLR_2  <-  function(x) {-dt(x, 1, log=TRUE)+dnorm(x, log=TRUE)}  
> integrate(function(x) dnorm(x)*lLR_2(x), lower=-Inf, upper=Inf)
0.2592445 with absolute error < 1e-07

প্রথম ক্ষেত্রে অবিচ্ছেদ্য সংখ্যাসূচকভাবে বিকিরণ ঘটে বলে মনে হয়, বিকিরণ ইঙ্গিত, খুব বড় বা অসীম দ্বিতীয় ক্ষেত্রে এটি হল ছোট, সংক্ষেপিত:

KL (P | | Q) \approx \infty KL (Q | | P) \approx 0.26

$\KL(P || Q) \approx \infty \\ \KL(Q || P) \approx 0.26$

$t_1$ $t_1$ $t_1$ $t_1$ $n=1$ $t_1$ ! ভূমিকাগুলি পরিবর্তন করা, না, পার্থক্যটি বেশিরভাগই বিদেশী ভূমিকা থেকে আসে li

$t_1$ $t_1$

এটি আমার উত্তরটির সাথে সম্পর্কিত: আমরা কেন স্বাভাবিক ত্রুটির পরিবর্তে টি ত্রুটি ব্যবহার করব?

— কেজেটিল বি হালওয়ারসেন
সূত্র

22

$D(P||Q)$

S K L (P, Q) = D (P | | Q) + D (Q | | P)

$SKL(P, Q) = D(P||Q) + D(Q||P)$

D (P | | Q)

$D(P||Q)$

S K L (P, Q)

$SKL(P, Q)$

D (A | | B) + D (B | | C) ⪈ D (A | | C)

$D(A||B) + D(B||C) \ngeqslant D(A||C)$

S K L (A, B) + S K L (B, C) ⪈ S K L (A, C)

$SKL(A, B) + SKL(B, C) \ngeqslant SKL(A, C)$

D (P | | Q) = \sum_{i} p_{i} \cdot \log (\frac{p_{i}}{q_{i}})

$D(P||Q) = \sum\limits_{i}p_i \cdot \log(\frac{p_i}{q_i})$

S K L (P, Q) = \sum_{i} (p_{i} - q_{i}) \cdot \log (\frac{p_{i}}{q_{i}})

$SKL(P, Q) = \sum\limits_{i}(p_i - q_i) \cdot \log(\frac{p_i}{q_i})$

D (A | | B) = 0.1 \cdot \log (\frac{0.1}{0.2}) + 0.9 \cdot \log (\frac{0.9}{0.8}) \approx 0.0159

$D(A||B) = 0.1 \cdot \log(\frac{0.1}{0.2}) + 0.9 \cdot \log(\frac{0.9}{0.8}) \approx 0.0159$

D (B | | C) \approx 0.0112

$D(B||C) \approx 0.0112$

D (A | | C) \approx 0.0505

$D(A||C) \approx 0.0505$

0.0159 + 0.0112 ⪈ 0.0505

$0.0159 + 0.0112 \ngeqslant 0.0505$

S K L (A, B) \approx 0.0352

$SKL(A, B) \approx 0.0352$

S K L (B, C) \approx 0.0234

$SKL(B, C) \approx 0.0234$

S K L (A, C) \approx 0.1173

$SKL(A, C) \approx 0.1173$

0.0352 + 0.0234 ⪈ 0.1173

$0.0352 + 0.0234 \ngeqslant 0.1173$

আমি উদ্দেশ্য হিসাবে এই উদাহরণ চালু। আসুন কল্পনা করুন যে আপনি কয়েকটি মুদ্রা টস করছেন, উদাহরণস্বরূপ 100 বার। যতক্ষণ না এই মুদ্রাগুলি নিরপেক্ষ থাকে, আপনি 0-1 বিট, (1-মাথা, 0-পুচ্ছ) এর ক্রম সহ টসিংয়ের ফলাফলগুলি এনকোড করবেন। এই পরিস্থিতিতে যখন মাথার সম্ভাব্যতা লেজের সম্ভাবনার সমান হয় এবং 0.5 এর সমান হয়, এটি বেশ কার্যকর এনকোডিং। এখন, আমরা কিছু পক্ষপাতদুষ্ট মুদ্রা পেয়েছি, সুতরাং আমরা সংক্ষিপ্ত কোডের সাথে আরও সম্ভাব্য ফলাফলগুলি এনকোড করব, উদাহরণস্বরূপ মাথা এবং লেজগুলির গোষ্ঠীগুলিকে একত্রিত করুন এবং কে লেজের ক্রমগুলির চেয়ে লম্বা কোড সহ কে হেডের ক্রমগুলি উপস্থাপন করুন (এগুলি আরও সম্ভাব্য)। এবং এখানে কুলব্যাক-লেবেলার বিচ্যুতি । যদি পি ফলাফলের সত্যিকারের বিতরণকে উপস্থাপন করে এবং Q কেবলমাত্র পি এর অনুমান মাত্র, তবে $D(P||Q)$ $D(P||Q)$ Q টির জন্য এনকোডিং সহ আসলে পি ডিস্ট্রিবিউশন থেকে আগত ফলাফলগুলি এনকোড করার সময় আপনি যে জরিমানাটি প্রদান করেন তা বোঝায় (আপনার অতিরিক্ত বিটগুলির ব্যবহারের জন্য জরিমানা)।

আপনার যদি সহজভাবে মেট্রিকের প্রয়োজন হয় তবে ভট্টাচার্য দূরত্ব ব্যবহার করুন (অবশ্যই পরিবর্তিত সংস্করণ ) $\sqrt{1 - [\sum\limits_{x} \sqrt{p(x)q(x)}]}$

— অ্যাডাম প্রেজেনডিজিক
সূত্র

7

কেএল ডাইভারজেন্সের সাথে ঘনিষ্ঠ সংযোগের সাথে যদি কোনও মেট্রিক থাকার বিষয়ে উদ্বিগ্ন হয় তবে তারা ভট্টাচার্যের জায়গায় জেনসেন-শ্যানন বিভক্তির বর্গমূলকে বিবেচনা করতে পারেন।

— কার্ডিনাল

5

আমি এখানে আপনার প্রশ্নের একটি নির্ভুল স্বজ্ঞাত উত্তর দিতে প্রলুব্ধ হই। আপনি যা বলছেন তা পুনরায় প্রকাশ করে, কেএল ডাইভার্জেন্স হ'ল হবার্ট স্পেসে দুটি ডেটা সেটের মধ্যকার দূরত্বটি গণনা করার জন্য দুটি বিতরণের মধ্যকার দূরত্ব পরিমাপ করার একটি উপায়, তবে কিছুটা সতর্কতা অবলম্বন করা উচিত।

কেন? কেএল বিকিরণ যেমন আপনি সাধারণত যে, এই ধরনের উদাহরণস্বরূপ যেমন ব্যবহার করতে পারেন একটি দূরত্ব নয় আদর্শ। প্রকৃতপক্ষে, এটি ইতিবাচক এবং শূন্যের সমান এবং যদি কেবল দুটি বিতরণ সমান হয় (দূরত্ব নির্ধারণের জন্য অক্ষরেখার মতো)। তবে যেমনটি উল্লেখ করা হয়েছে, এটি প্রতিসম নয়। এটি রোধ করার উপায় রয়েছে তবে এটি প্রতিসাম্যহীন না হওয়ার জন্য এটি বোঝা যায়। $L_2$

বস্তুত, কেএল বিকিরণ একটি মডেল বন্টন মধ্যে দূরত্ব সংজ্ঞায়িত (যে আপনি আসলে জানেন) এবং একটি তাত্ত্বিক এক যেমন যে এটা জ্ঞান করে তোলে ভিন্নভাবে হ্যান্ডেল করতে ( "তাত্ত্বিক" এর দূরত্ব থেকে অভিমানী মডেল ) এবং ( "গবেষণামূলক" এর দূরত্ব থেকে ডেটা অভিমানী ) হিসাবে তারা পুরোপুরি ভিন্ন ব্যবস্থা মানে। $Q$ $P$ $KL(P, Q)$ $P$ $Q$ $P$ $KL(Q, P)$ $P$ $Q$ $Q$

— meduz
সূত্র

4

তথ্য তত্ত্বের পাঠ্যপুস্তক উপাদানগুলি আমাদের একটি উদাহরণ দেয়:

উদাহরণস্বরূপ, যদি আমরা এলোমেলো ভেরিয়েবলের সত্যিকারের বিতরণ পিটি জানতাম, তবে আমরা গড় বর্ণনার দৈর্ঘ্য এইচ (পি) সহ একটি কোড তৈরি করতে পারি। যদি পরিবর্তে, আমরা একটি বিতরণ q এর কোড ব্যবহার করি তবে এলোমেলো ভেরিয়েবলটি বর্ণনা করার জন্য আমাদের গড়ে গড়ে গড়ে H (p) + D (p || q) বিট লাগবে।

উপরের বিবৃতিটি প্যারাফ্রেস করতে, আমরা বলতে পারি যে আমরা যদি তথ্য বিতরণ পরিবর্তন করি (q থেকে p তে) আমাদের নতুন ডিস্ট্রিবিউশন কোড করার জন্য গড়ে ডি বি (পি || কিউ) অতিরিক্ত বিট প্রয়োজন।

একটি দৃষ্টান্ত

প্রাকৃতিক ভাষা প্রক্রিয়াকরণে এটির একটি প্রয়োগ ব্যবহার করে এটি চিত্রিত করি।

বিবেচনা করুন যে মানুষ বৃহৎ গ্রুপ, লেবেল বি, মধ্যস্থতাকারী এবং তাদের প্রতিটি থেকে একটি বিশেষ্য পছন্দ করে নিন একটি টাস্ক নির্ধারিত হয় turkey, animalএবং bookএবং প্রেরণ এটা সি করার জন্য একটি লোক NAME একটি যারা দিতে একটি ইমেইল তাদের প্রতিটি পাঠাতে পারে নেই তাদের কিছু ইঙ্গিত। গ্রুপের কেউ ইমেল না পেলে তারা ভ্রু বাড়াতে পারে এবং সিটির কী প্রয়োজন তা বিবেচনা করে কিছুক্ষণ দ্বিধায় পড়তে পারে। এবং প্রতিটি বিকল্প নির্বাচিত হওয়ার সম্ভাবনাটি 1/3। সামগ্রিকভাবে অভিন্ন বিতরণ (যদি তা না হয় তবে এটি তাদের নিজস্ব পছন্দের সাথে সম্পর্কিত হতে পারে এবং আমরা কেবল এই জাতীয় কেসগুলিকে উপেক্ষা করি)।

তবে যদি তাদের একটি ক্রিয়া দেওয়া হয়, যেমন baste, তাদের মধ্যে 3/4 টি চয়ন করতে পারে turkeyএবং 3/16 চয়ন করতে পারে animalএবং 1/16 পছন্দ করে book। তারপরে ক্রিয়াটি জানার পরে প্রতিটি মধ্যস্থতাকারী প্রতিটি বিটগুলিতে কতটা তথ্য পেয়েছেন? এটাই:

\begin{aligned} D (p (n o u n s | b a s t e) | | p (n o u n s)) & = \sum_{x \in {t u r k e y, a n i m a l, b o o k}} p (x | b a s t e) \log_{2} \frac{p (x | b a s t e)}{p (x)} \\ = \frac{3}{4} * \log_{2} \frac{\frac{3}{4}}{\frac{1}{3}} + \frac{3}{16} * \log_{2} \frac{\frac{3}{16}}{\frac{1}{3}} + \frac{1}{16} * \log_{2} \frac{\frac{1}{16}}{\frac{1}{3}} \\ = 0.5709 b i t s \end{aligned}

$\begin{align*} D(p(nouns|baste)||p(nouns)) &= \sum_{x\in\{turkey, animal, book\}} p(x|baste) \log_2 \frac{p(x|baste)}{p(x)} \\ &= \frac{3}{4} * \log_2 \frac{\frac{3}{4}}{\frac{1}{3}} + \frac{3}{16} * \log_2\frac{\frac{3}{16}}{\frac{1}{3}} + \frac{1}{16} * \log_2\frac{\frac{1}{16}}{\frac{1}{3}}\\ &= 0.5709 \space \space bits\\ \end{align*}$

কিন্তু প্রদত্ত ক্রিয়াটি হলে কী হবে read? আমরা কল্পনা করতে পারি যে bookএগুলি প্রত্যেকে বিনা দ্বিধায় বেছে নেবে, তারপরে ক্রিয়াটি থেকে প্রতিটি মধ্যস্থতার জন্য গড় তথ্য প্রাপ্তি readহ'ল:

\begin{aligned} D (p (n o u n s | r e a d) | | p (n o u n s)) & = \sum_{x \in {b o o k}} p (x | r e a d) \log_{2} \frac{p (x | r e a d)}{p (x)} \\ = 1 * \log_{2} \frac{1}{\frac{1}{3}} \\ = 1.5849 b i t s \end{aligned}

$\begin{align*} D(p(nouns|read)||p(nouns)) &= \sum_{x\in\{book\}} p(x|read) \log_2 \frac{p(x|read)}{p(x)} \\ &= 1 * \log_2 \frac{1}{\frac{1}{3}} \\ & =1.5849 \space \space bits \\ \end{align*}$ আমরা দেখতে পাচ্ছি যে ক্রিয়াটি readমধ্যস্থতাকারীদের আরও তথ্য দিতে পারে। এবং এটাই আপেক্ষিক এনট্রপি পরিমাপ করতে পারে।

আমাদের গল্প অবিরত করা যাক। সি যদি সন্দেহ করে যে বিশেষ্যটি ভুল হতে পারে কারণ এ তাকে বলেছিল যে তিনি ভুল ক্রিয়াটি মধ্যস্থতাকারীদের কাছে প্রেরণ করে ভুল করেছেন। তারপরে বিটের মধ্যে এই জাতীয় খারাপ খবরের একটি টুকরো কত তথ্য দিতে পারে?

1) ক দ্বারা প্রদত্ত ক্রিয়াটি হ'ল baste:

\begin{aligned} D (p (n o u n s) | | p (n o u n s | b a s t e)) & = \sum_{x \in {t u r k e y, a n i m a l, b o o k}} p (x) \log_{2} \frac{p (x)}{p (x | b a s t e)} \\ = \frac{1}{3} * \log_{2} \frac{\frac{1}{3}}{\frac{3}{4}} + \frac{1}{3} * \log_{2} \frac{\frac{1}{3}}{\frac{3}{16}} + \frac{1}{3} * \log_{2} \frac{\frac{1}{3}}{\frac{1}{16}} \\ = 0.69172 b i t s \end{aligned}

$\begin{align*} D(p(nouns)||p(nouns|baste)) &= \sum_{x\in\{turkey, animal, book\}} p(x) \log_2 \frac{p(x)}{p(x|baste)} \\ &= \frac{1}{3} * \log_2 \frac{\frac{1}{3}}{\frac{3}{4}} + \frac{1}{3} * \log_2\frac{\frac{1}{3}}{\frac{3}{16}} + \frac{1}{3} * \log_2\frac{\frac{1}{3}}{\frac{1}{16}}\\ &= 0.69172 \space \space bits\\ \end{align*}$

2) তবে ক্রিয়াটি যদি হত read?

\begin{aligned} D (p (n o u n s) | | p (n o u n s | b a s t e)) & = \sum_{x \in {b o o k, *, *}} p (x) \log_{2} \frac{p (x)}{p (x | b a s t e)} \\ = \frac{1}{3} * \log_{2} \frac{\frac{1}{3}}{1} + \frac{1}{3} * \log_{2} \frac{\frac{1}{3}}{0} + \frac{1}{3} * \log_{2} \frac{\frac{1}{3}}{0} \\ = \infty b i t s \end{aligned}

$\begin{align*} D(p(nouns)||p(nouns|baste)) &= \sum_{x\in\{book, *, *\}} p(x) \log_2 \frac{p(x)}{p(x|baste)} \\ &= \frac{1}{3} * \log_2 \frac{\frac{1}{3}}{1} + \frac{1}{3} * \log_2\frac{\frac{1}{3}}{0} + \frac{1}{3} * \log_2\frac{\frac{1}{3}}{0}\\ &= \infty \space \space bits\\ \end{align*}$

যেহেতু সি কখনই জানেন না যে অন্য দুটি বিশেষ্যটি কী হবে এবং শব্দভাণ্ডারের কোনও শব্দই সম্ভব হবে।

আমরা দেখতে পাচ্ছি যে কেএল ডাইভার্জেন্সটি অসম্পূর্ণ met

আমি আশা করি আমি ঠিক আছি, এবং না হলে মন্তব্য করুন এবং আমাকে সংশোধন করতে সহায়তা করুন। আগাম ধন্যবাদ.

— লারনার ঝাং
সূত্র

কুলব্যাক-লেবলার (কেএল) ডাইভারজেন্স সম্পর্কিত অন্তর্দৃষ্টি

একটি দৃষ্টান্ত