কেএল বিচ্যুতি সম্পর্কে প্রশ্ন?


14

আমি দুটি বিতরণকে কেএল ডাইভারজেন্সের সাথে তুলনা করছি যা আমাকে একটি মানহীন নম্বর প্রদান করে যা আমি এই পরিমাপটি সম্পর্কে যা পড়েছি তার অনুসারে, একটি অনুমানকে অন্যটিতে রূপান্তরিত করার জন্য প্রয়োজনীয় তথ্যের পরিমাণ। আমার দুটি প্রশ্ন আছে:

ক) কেএল ডাইভার্জেন্সকে মাপানোর কোনও উপায় আছে যাতে এটির আরও অর্থবহ ব্যাখ্যা থাকে, যেমন কোনও প্রভাব আকার বা আর ^ 2 এর মতো? মানককরণের কোন রূপ?

খ) আর-তে, কেএলডিভ (ফ্লেক্সিমিক্স প্যাকেজ) ব্যবহার করার সময় সংখ্যার স্থিতিশীলতা সরবরাহের জন্য কেউ 'esp' মান (স্ট্যান্ডার্ড esp = 1e-4) সেট করতে পারে যা esp এর চেয়ে ছোট সমস্ত পয়েন্টকে কিছু মানকে সেট করে। আমি বিভিন্ন esp মানগুলির সাথে খেলছি এবং আমার ডেটা সেট করার জন্য, আমি যে সংখ্যাটি যত কম নিচ্ছি ক্রমবর্ধমান বৃহত্তর কেএল ডাইভার্জেন্স পাচ্ছি। কি হচ্ছে? আমি আশা করব যে ইএসপি যত ছোট হবে, ফলাফলগুলি তত বেশি নির্ভরযোগ্য হওয়া উচিত কারণ তারা আরও 'আসল মানগুলি' পরিসংখ্যানের অংশ হতে দেয়। কোন? আমাকে ইএসপি পরিবর্তন করতে হবে কারণ এটি অন্যথায় পরিসংখ্যান গণনা করে না তবে ফলাফল টেবিলে কেবল এনএ হিসাবে প্রদর্শিত হয় ...

উত্তর:


10

মনে করুন আপনাকে পি আই বা Q দ্বারা উত্পন্ন এনআইডি নমুনা দেওয়া হচ্ছে। আপনি সনাক্ত করতে চান যে কোন বিতরণ তাদের উত্পন্ন করেছে। নাল অনুমান হিসাবে বিবেচনা করুন যে তারা q দ্বারা উত্পাদিত হয়েছিল। কোনও প্রকার I ত্রুটির সম্ভাব্যতাটি ভুলভাবে, নাল অনুমানটিকে প্রত্যাখ্যান করে এবং খ দ্বিতীয় ধরণের ত্রুটির সম্ভাবনা নির্দেশ করে Let

তারপরে বড় এন এর ক্ষেত্রে টাইপ আই ত্রুটির সম্ভাবনা কমপক্ষে

exp(nKL(p,q))

অন্য কথায়, একটি "অনুকূল" সিদ্ধান্ত পদ্ধতির জন্য, প্রকার I এর সম্ভাব্যতা প্রতিটি ডেটাপয়েন্টের সাথে এক্সপ (কেএল (পি, কিউ)) এর একটি ফ্যাক্টর দ্বারা সর্বাধিক হয়। টাইপ দ্বিতীয় ত্রুটি সর্বাধিক পড়ে।exp(KL(q,p))

নির্বিচারে এন এর জন্য, ক এবং বি নিম্নলিখিত হিসাবে সম্পর্কিত

blogb1a+(1b)log1banKL(p,q)

এবং

aloga1b+(1a)log1abnKL(q,p)

যদি আমরা উপরের সীমাটি বি এবং কেএল এর সাথে নীচে আবদ্ধ হিসাবে প্রকাশ করি এবং খ-কে 0 তে হ্রাস পাই তবে ফলস্বরূপ ছোট এন এর জন্য আবদ্ধ "এক্সপ্রেস (-এন কেএল (কিউ, পি)) এর কাছে পৌঁছবে বলে মনে হচ্ছে

এখানে 10 পৃষ্ঠার আরও বিবরণ এবং কুলব্যাকের "তথ্য তত্ত্ব এবং পরিসংখ্যান" (1978) এর 74-77 পৃষ্ঠাগুলি রয়েছে।

পার্শ্ব নোট হিসাবে, এই ব্যাখ্যাটি ফিশার ইনফরমেশন মেট্রিককে অনুপ্রাণিত করতে ব্যবহার করা যেতে পারে , যেহেতু একে অপরের (ছোট কে) থেকে ফিশারের দূরত্ব কে-তে বিতরণের যে কোনও জোড়া পি, কিউয়ের জন্য তাদের আলাদা করার জন্য একই সংখ্যক পর্যবেক্ষণের প্রয়োজন


1
+1 আমি এই ব্যাখ্যা পছন্দ করি! আপনি "পি নীচে ই" পরিষ্কার করতে পারেন? আপনি কেন ছোট ই? আপনি বলছেন যে "বিপরীত ভুল করার সম্ভাবনাটি" এটি একটি উপরের বাউন্ড বা সঠিক সম্ভাবনা? যদি আমি মনে করি, এই ধরণের পদ্ধতির কারণ চেরনফ, কারণ আপনার কাছে কি রেফারেন্স রয়েছে (আমি দেখতে পাচ্ছি যে আপনার প্রথম রেফারেন্সটি বিন্দুটি স্পষ্ট করছে না :))?
রবিন গিরার্ড

1
আমি কেন ছোট ই ... হুম ... বালাসুব্রাহ্মণিয়ামের কাগজটি সেটাই করল, তবে এখন কুলব্যাকের কাছে ফিরে দেখা যাচ্ছে যে কোনও ইয়ের জন্য তার আবদ্ধ হোল্ড, এবং সেও সীমাবদ্ধতার জন্য আবদ্ধ, আমাকে উত্তরটি আপডেট করতে দিন
ইয়ারোস্লাভ বুলাটোভ

ঠিক আছে, ধরে রাখতে বাধ্য হওয়ার জন্য ছোট হওয়ার জন্য আমাদের ছোট ই (বর্তমানে b, টাইপ II ত্রুটি) প্রয়োজন হয় না, তবে b = 0 মানটি যার জন্য সরল (এক্সপ্রেট (-এন কেএল (পি, কিউ)) আবদ্ধ হয় উপরেরটি আরও জটিল আবদ্ধের সাথে মিলে যায়। কৌতূহলীভাবে যথেষ্ট, টাইপ 1 ত্রুটির জন্য নীচের গণ্ডি দেওয়া হয়েছে টাইপ 2 ত্রুটিটি <1, আমি ভাবছি <1 টাইপ দ্বিতীয় ত্রুটির হারটি আসলে অর্জনযোগ্য কিনা
ইয়ারোস্লাভ বুলাটোভ

1
প্রকৃতপক্ষে এর জন্য রেফারেন্সটি বোঝার পক্ষে সহজতর বিষয় হ'ল কভারের "ইনফরমেশন থিওরির উপাদানগুলি" পৃষ্ঠা, 309, 12.8 "স্টেইনের লেমমা"
ইয়ারোস্লাভ বুলাটোভ

8

কেএলটির গভীর অর্থ রয়েছে যখন আপনি ফিশার মেট্রিক টেনসরের অভ্যন্তরে বহুগুণ হিসাবে দন্তত্বের সেটটি কল্পনা করেন , এটি দুটি "ঘনিষ্ঠ" বিতরণের মধ্যে জিওডেসিক দূরত্ব দেয়। আনুষ্ঠানিকভাবে:

ds2=2KL(p(x,θ),p(x,θ+dθ))

এই লাস গাণিতিক সূত্রগুলি কী বোঝায় সে সম্পর্কে বিশদ সহ এখানে নীচের লাইনগুলি ব্যাখ্যা করুন।

ফিশার মেট্রিকের সংজ্ঞা।

সম্ভাব্যতা ডিস্ট্রিবিউশন একটি parametrized পরিবার বিবেচনা (ইন ঘনত্বের কর্তৃক প্রদত্ত আর এন , যেখানে) এক্স একটি র্যান্ডম পরিবর্তনশীল এবং থেটা একটি প্যারামিটার আর পি । আপনি পারে সব knnow ফিশার তথ্য ম্যাট্রিক্স যে এফ = ( এফ আমি ) হয়D=(f(x,θ))RnxRpF=(Fij)

Fij=E[d(logf(x,θ))/dθid(logf(x,θ))/dθj]

এই স্বরলিপি সহ একটি রিমনিয়ান বহুগুণ এবং এফ ( θ )DF(θ) মেট্রিক টেনসর। (এই মেট্রিকের আগ্রহ ক্রেমার রাও নিম্ন সীমান্ত উপপাদ্য দ্বারা দেওয়া হয়েছে)

আপনি বলতে পারেন ... ঠিক আছে গাণিতিক বিমূর্ততা কিন্তু কেএল কোথায়?

এটি গাণিতিক বিমূর্ততা নয়, যদি আপনি সত্যিই আপনার প্যারামাইট্রাইজড ঘনত্বটিকে একটি বক্র হিসাবে কল্পনা করতে পারেন (অসীম মাত্রার কোনও স্থানের উপসেটের পরিবর্তে) এবং এফ 11 সেই বক্ররেখাটির বক্রতার সাথে সংযুক্ত থাকে ... (সেমিনাল দেখুন ব্র্যাডলি এফ্রন এর কাগজ http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1176343282 )p=1F11

আপনার প্রশ্নের বিন্দু a এর অংশের জ্যামিতিক উত্তর: দুটি (কাছাকাছি) ডিস্ট্রিবিউশন পি ( x , θ ) এবং পি ( x , θ + d squ ) এর মধ্যে বর্গক্ষেত্রের দূরত্ব ds2p(x,θ)p(x,θ+dθ) ম্যানিফোল্ডে দুটি বিন্দুর পৃথিবী যেটি নিকটবর্তী, এটি পৃথিবীর বক্রতার সাথে সম্পর্কিত) চতুর্ভুজ রূপ দ্বারা দেওয়া হয়েছে:

ds2=Fijdθidθj

এবং এটি দ্বিগুণ কুলব্যাক লেবেলার বিচ্যুতি হিসাবে পরিচিত:

ds2=2KL(p(x,θ),p(x,θ+dθ))

আপনি যদি এ সম্পর্কে আরও জানতে চান তবে আমি আমারী http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1176345779 (আমার মনে হয় যে আমারির একটি বইও আছে পরিসংখ্যানগুলিতে রিমানিয়ান জ্যামিতি তবে নামটি মনে নেই)


আপনার লেটেক্সের চারপাশে $ যোগ করুন। এটি এখন ঠিক রেন্ডার করা উচিত। মেটা.ম্যাথ.স্ট্যাকেক্সচেঞ্জ
রব হ্যান্ডম্যান

1
যেহেতু আমি গণিতবিদ বা পরিসংখ্যানবিদ নই, তাই আপনি যা বলছিলেন তা আমি আবারও বলতে চাই যাতে আমি ভুল বুঝতে পারিনি mis সুতরাং, আপনি বলছেন যে ডিএস ^ 2 (কেএল এর দ্বিগুণ) নেওয়ার একটি সাধারণ বন্টনের জন্য আর ^ 2 (একটি রিগ্রেশন মডেল হিসাবে) এর অনুরূপ অর্থ হবে। এবং এটি আসলে জ্যামিতিকভাবে দূরত্বগুলি মাপতে ব্যবহার করা যেতে পারে? ডিএস ^ 2 এর একটি নাম রয়েছে যাতে আমি এ সম্পর্কে আরও পড়তে পারি। এমন কোনও কাগজ রয়েছে যা এই মেট্রিককে সরাসরি বর্ণনা করে এবং অ্যাপ্লিকেশন এবং উদাহরণগুলি দেখায়?
এম্প্লেফোরথ

আমি মনে করি আপনি বিষয়টি বোঝার থেকে দূরে আছেন এবং আমি নিশ্চিত নই যে আপনার এখন আরও এগিয়ে যাওয়ার চেষ্টা করা উচিত। আপনি যদি উদ্বুদ্ধ হন তবে আপনি উল্লিখিত ব্র্যাডলি এফ্রন থেকে কাগজটি পড়তে পারেন বা সেই কাগজটি অমারি প্রজেক্টিউক্লিড.আর . / এর থেকে পড়তে পারেন ।
রবিন গিরার্ড

1
এটি নিজেকে কেএল এর চেয়ে কেএল এর দিকনির্দেশক ডেরাইভেটিভের বৈশিষ্ট্য বলে মনে হয় এবং এ থেকে কেএল ডাইভারজেন্স পাওয়া সম্ভব বলে মনে হয় না কারণ ডেরাইভেটিভের বিপরীতে, কেএল-ডাইভারজেন্সটি বহুগুণের জ্যামিতির উপর নির্ভর করে না
ইয়ারোস্লাভ বুলাটোভ

7

পি (।) এবং কিউ (।) এর বিতরণগুলির মধ্যে কেএল (পি, কি) বিভাজনের একটি স্বজ্ঞাত তথ্য তাত্ত্বিক ব্যাখ্যা রয়েছে যা আপনাকে দরকারী মনে হতে পারে।

ধরুন আমরা কিছু সম্ভাব্যতা বন্টন পি (।) দ্বারা উত্পন্ন ডেটা এক্স পর্যবেক্ষণ করি। পি (।) দ্বারা উত্পন্ন ডেটা জানাতে প্রয়োজনীয় বিটগুলিতে গড় গড় দৈর্ঘ্যের উপর একটি নিম্ন সীমাটি পি (।) এর এনট্রপি দিয়ে দেওয়া হয় by

এখন, যেহেতু আমরা পি (।) জানি না আমরা অন্য বিতরণটি বেছে নিই, ডেটা এনকোড করতে (বা বর্ণনা করতে, বর্ণনা) q (।) বলুন। পি (।) দ্বারা উত্পন্ন ডেটা এবং কোড (।) ব্যবহার করে এনকোড করা হয়েছে এমন গড়ের দৈর্ঘ্যের দৈর্ঘ্য অবশ্যই কোডিংয়ের জন্য সত্য বিতরণ পি (।) ব্যবহার করা অপেক্ষা লম্বা হবে। কেএল ডাইভারজেন্স আমাদের এই বিকল্প কোডটির অদক্ষতা সম্পর্কে বলে। অন্য কথায়, পি (।) এবং কিউ (।) এর মধ্যে কেএল ডাইভার্জেন্স হল কোডিং বিতরণ q (।) ব্যবহার করে পি (।) দ্বারা উত্পন্ন ডেটা এনকোড করতে প্রয়োজনীয় অতিরিক্ত বিটগুলির গড় সংখ্যা its কেএল ডাইভারজেন্সটি অ-নেতিবাচক এবং শূন্যের সমান হয় যদি আসল ডেটা উত্পন্ন বিতরণ ডেটা এনকোড করতে ব্যবহৃত হয়।


2

For part (b) of your question, you might be running into the problem that one of of your distributions has density in a region where the other does not.

D(PQ)=pilnpiqi

This diverges if there exists an i where pi>0 and qi=0. The numerical epsilon in the R implementation "saves you" from this problem; but it means that the resulting value is dependent on this parameter (technically qi=0 is no required, just that qi is less than the numerical epsilon).

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.