তথ্য তত্ত্ব ব্যতীত কুলব্যাক-লেবেলার বিচ্যুতি


23

ক্রস যাচাইয়ের অনেক ট্রলিংয়ের পরেও আমি এখনও মনে করি না যে আমি তথ্য তত্ত্বের ক্ষেত্রের বাইরে কেএল ডাইভারজেন্স বোঝার আরও কাছাকাছি। ম্যাথ ব্যাকগ্রাউন্ডের কারও মতো তথ্য তত্ত্বের ব্যাখ্যাটি বোঝার পক্ষে এটি আরও সহজ খুঁজে পাওয়ার পক্ষে এটি অদ্ভুত।

একটি তথ্য তত্ত্বের পটভূমি থেকে আমার বোঝার বাহ্যরেখা: যদি আমাদের সীমিত সংখ্যক ফলাফলের সাথে একটি এলোমেলো পরিবর্তনশীল থাকে তবে একটি অনুকূল এনকোডিং উপস্থিত রয়েছে যা আমাদের সাথে গড়পড়তা সংক্ষিপ্ত বার্তা দিয়ে অন্য কারও সাথে ফলাফলটি যোগাযোগ করতে দেয় (আমি এটিকে সবচেয়ে সহজ বলে মনে করি) বিট পদে চিত্র)। ফলাফলটি জানানোর জন্য যে বার্তাটির প্রত্যাশিত দৈর্ঘ্যটি হবে তা প্রদত্ত যদি সর্বোত্তম এনকোডিং ব্যবহার করা হয়। আপনি যদি একটি সর্বোত্তম এনকোডিং ব্যবহার করতে চান তবে কেএল ডাইভার্জেন্স আমাদের বার্তাটি কত দীর্ঘ সময় দেবে তা গড়ে আমাদের জানান।

-Σαপিαলগ2(পিα)

আমি এই ব্যাখ্যাটি পছন্দ করি কারণ এটি স্বজ্ঞাতভাবে কেএল ডাইভার্জেন্সের অসম্পূর্ণতার সাথে কাজ করে। আমাদের যদি দুটি পৃথক সিস্টেম থাকে, অর্থাত্ দুটি লোড হওয়া কয়েন যা আলাদাভাবে লোড হয়, তাদের আলাদা আলাদা অনুকূল এনকোডিং থাকবে। আমি কোনওভাবেই সহজাতভাবে অনুভব করি না যে প্রথমটির জন্য দ্বিতীয় সিস্টেমের এনকোডিংটি দ্বিতীয়টির জন্য প্রথম সিস্টেমের এনকোডিংটি ব্যবহার করা "সমানভাবে খারাপ"। কীভাবে আমি নিজেকে বুঝিয়েছি এই চিন্তার প্রক্রিয়াটি না পেরে আমি এখন যথেষ্ট খুশি যে এর জন্য এর এনকোডিং ব্যবহার করার সময় আপনাকে এই "অতিরিক্ত প্রত্যাশিত বার্তার দৈর্ঘ্য" দেয় ।কিউপি

Σαপিα(লগ2কুইα-লগ2পিα)
কুইপি

তবে, উইকিপিডিয়াসহ কেএল ডাইভার্জেন্সের বেশিরভাগ সংজ্ঞা তখন বিবৃতি দেয় (এটিকে পৃথক শর্তে রেখে যাতে এটি তথ্যের তত্ত্বের ব্যাখ্যার সাথে তুলনা করা যায় যা বিট হিসাবে বিচ্ছিন্ন পদগুলিতে আরও ভাল কাজ করে) যে আমাদের যদি দুটি পৃথক সম্ভাবনা থাকে বিতরণ, তারপরে কেএল "তারা কতটা আলাদা" এর কিছু মেট্রিক সরবরাহ করে। এই দুটি ধারণাটি কীভাবে সম্পর্কিত, তার একটিমাত্র ব্যাখ্যা আমি এখনও দেখতে পাইনি। অনুমান সম্পর্কিত তাঁর বইটিতে আমার মনে আছে, ডেভ ম্যাকে কীভাবে ডেটা সংক্ষেপণ এবং অনুমানগুলি মূলত একই জিনিসটি সম্পর্কে পয়েন্টগুলি তৈরি করে এবং আমার সন্দেহ হয় যে আমার প্রশ্নটি সত্যই এর সাথে সম্পর্কিত।

তা যাই হোক না কেন তা নির্বিশেষে আমার মনে যে ধরণের প্রশ্ন রয়েছে তা অনুমানের সমস্যাগুলির চারপাশে। (বিষয়গুলি পৃথক করে রাখা), যদি আমাদের কাছে দুটি তেজস্ক্রিয় নমুনা থাকে এবং আমরা জানি যে এর মধ্যে একটি হল নির্দিষ্ট তেজস্ক্রিয়তা সহ একটি নির্দিষ্ট উপাদান (এটি সন্দেহজনক পদার্থবিজ্ঞান তবে মহাবিশ্বটি এর মতো কাজ করে দেখায়) এবং সুতরাং আমরা "সত্য" বিতরণটি জানি তেজস্ক্রিয় ক্লিকের আমাদের পরিমাপ করা উচিত জ্ঞাত- সহ পোষোনিয়ান হওয়া উচিত , উভয় নমুনার জন্য একটি অনুশীলনমূলক বিতরণ তৈরি করা এবং তাদের কেএল ডাইভারজেন্সগুলি পরিচিত বন্টনের সাথে তুলনা করা এবং নীচের অংশে উপাদানটি হওয়ার সম্ভাবনা কম বলে মনে করা উচিত?λ

সন্দেহজনক পদার্থবিজ্ঞান থেকে দূরে সরে যাওয়া, যদি আমি জানি যে একই ডিস্ট্রিবিউশন থেকে দুটি নমুনা টানা হয়েছে তবে আমি জানি যে তারা এলোমেলোভাবে নির্বাচিত হয়নি, তাদের কেএল ডাইভার্জেন্সগুলি পরিচিতের সাথে তুলনা করবে, বিশ্বব্যাপী বিতরণ আমাকে নমুনা "কতটা পক্ষপাতদুষ্ট" করার জন্য অনুভূতি দেয় , যাইহোক এক এবং অন্যের তুলনায়?

এবং শেষ অবধি, যদি পূর্ববর্তী প্রশ্নের উত্তর হ্যাঁ হয়, তবে কেন? তথ্য তত্ত্বের সাথে কোনও (সম্ভবত ধনাত্মক) সংযোগ না করে একা একটি পরিসংখ্যানিক দৃষ্টিকোণ থেকে এই বিষয়গুলি বোঝা সম্ভব?


1
আমার উত্তরটি এখানে দেখুন: stats.stackexchange.com/questions/188903/… যা তথ্য তত্ত্বের উল্লেখ করে না
kjetil b halvorsen

1
কেএল ডাইভার্জেন্স কি খালি তথ্য তাত্ত্বিক ধারণা নয়? আমি জানি এটি কোনও বায়েশিয়ান পূর্ববর্তী ও উত্তরোত্তর বা এরকম কিছুগুলির মধ্যে পারস্পরিক তথ্য দেয় এবং আমি ফেনচেল রূপান্তর / কনজুগেটস (বৃহত বিচ্যুতি তত্ত্ব) এর প্রসঙ্গে এটি একবার দেখেছি মনে আছে তবে কোনও ক্ষেত্রেই আমি এটি একটি তথ্য তাত্ত্বিক ধারণা বলে মনে করেছি ।
চিল

উত্তর:


23

একটি নমুনা নেওয়া আছে: Kullback-Leibler বিকিরণ করার জন্য একটি বিশুদ্ধরূপে পরিসংখ্যানগত পন্থা একটি অজানা বন্টন থেকে IID পি এবং ডিস্ট্রিবিউশন একটি পরিবার দ্বারা সম্ভাব্য হইয়া বিবেচনা, এফ = { P θX1,,Xnp সম্পর্কিত সম্ভাবনাটি এল ( θ | x 1 , , x n ) = n i = 1 পি θ ( এক্স i ) হিসাবে সংজ্ঞায়িত করা হয়েছে এবং এর লোগারিদমটি ( θ | x 1 , , x n) ) = n i = 1 লগ পি θ ( x আমি )

এফ={পিθ, θΘ}
এল(θ|এক্স1,...,এক্সএন)=Πআমি=1এনপিθ(এক্সআমি)
(θ|এক্স1,...,এক্সএন)=Σআমি=1এনলগপিθ(এক্সআমি)
অতএব, যা p θ এবং p H ( p θ | p ) Def = লগ { পি ( এক্স ) / পি θ ( এক্স ) between এর মধ্যে কুলব্যাক-লেবেলার বিচরণের আকর্ষণীয় অংশ }
1এন(θ|এক্স1,...,এক্সএন)[লগপিθ(এক্স)]=লগপিθ(এক্স)পি(এক্স)এক্স
পিθপি অন্যান্য অংশ লগ { পি ( এক্স ) }
এইচ(পিθ|পি)=Defলগ{পি(এক্স)/পিθ(এক্স)}পি(এক্স)এক্স
সেখানে হচ্ছে [ন্যূনতম আছে θ এর] এইচ ( পি θ | পি ) শূন্য সমান।
লগ{পি(এক্স)}পি(এক্স)এক্স
θএইচ(পিθ|পি)

একটি বই যা ডাইভার্জেনশন, তথ্য তত্ত্ব এবং পরিসংখ্যানিক অনুক্রমকে সংযুক্ত করে সেটি হ'ল রিসেনেনের পরামিতিগুলির অনুকূল অনুমান , যা আমি এখানে পর্যালোচনা করেছি ।


এর সংখ্যাসূচক উদাহরণ দেখার কোন সম্ভাবনা?
পল উজ্জাক

ঠিক আছে মানে আমি কিছু আসল সংখ্যা দেখছি। থিওরি সুন্দর তবে বিশ্ব সংখ্যা অনুসারে চলে। কেএল ডাইভার্জেন্সের কোনও উদাহরণ নেই যা প্রকৃত সংখ্যা ব্যবহার করে, তাই আমি এই সিদ্ধান্তে টানছি যে এটি কোনও সম্ভাব্য প্রয়োগ ছাড়াই একটি তত্ত্ব। বিপি এবং ডেটা সংকোচনে বার্তাগুলির দৈর্ঘ্য নিয়ে আলোচনা করেছে OP আমি এমন কোনও উদাহরণের উল্লেখ করছিলাম যার এতে বেশ কয়েকটি বিট ছিল ...
পল উসযাক

2
@ পলিউসাক: যদি আমি আপনাকে বলি যে এন (0,1) এবং একটি এন (1,1) বিতরণের মধ্যে কুল্ল্যাকব্যাক-লেবেলারের দূরত্ব 1/2, তবে কীভাবে এই সাহায্য করবে?
শি'য়ান

2
@ শি'য়ান: অবশ্যই সেই সম্ভাবনা অনুপাত পরীক্ষার 1//২ নম্বর এবং পাওয়ার মধ্যে কিছু সংযোগ থাকতে হবে?
কেজেটিল বি হালওয়ারসেন

7
+1 মন্তব্যের থ্রেডটি পুনরায়: মন এই চিন্তায় বিচলিত হয় যে কোনও ধারণা যা "বিটের সংখ্যায়" হ্রাস করা যায় না তা অকেজো।
whuber

8

এখানে কুলব্যাক-লেবেলার বিচরণের একটি পরিসংখ্যানগত ব্যাখ্যা দেওয়া হয়েছে, আইজে গুডের কাছ থেকে আলগাভাবে নেওয়া হয়েছে ( প্রমাণের ওজন: একটি সংক্ষিপ্ত সমীক্ষা , বায়েসিয়ান পরিসংখ্যান 2, 1985)।

প্রমাণ ওজন।

এক্স1,এক্স2,...,এক্সএন0এইচ1এইচ20এইচ1={1}এইচ2={2}012

এক্স=(এক্স1,...,এক্সএন)এইচ1এইচ2

ওয়াট(এক্স)=লগ1(এক্স)2(এক্স)
পিএইচ0এইচ1ওয়াট
লগপি(এইচ0|এক্স)পি(এইচ1|এক্স)=ওয়াট(এক্স)+ +লগপি(এইচ0)পি(এইচ1)
ওয়াট(এক্স1,...,এক্সএন)=ওয়াট(এক্স1)+ ++ +ওয়াট(এক্সএন)
ওয়াট(এক্স)এক্সএইচ1এইচ2

এক্সওয়াট(এক্স)ওয়াট(এক্স)>2

কুলব্যাক-লেবলার ডাইভারজেন্স

12এক্স~1

কেএল(1,2)=এক্স~1ওয়াট(এক্স)=1লগ12

এক্স~1এইচ1={1}এইচ2

এক্স~1ওয়াট(এক্স)0।

1

এই দুটি ধারণাটি কীভাবে সম্পর্কিত, তার একটিমাত্র ব্যাখ্যা আমি এখনও দেখতে পাইনি।

আমি তথ্য তত্ত্ব সম্পর্কে খুব বেশি জানি না, তবে আমি এটি সম্পর্কে এইভাবেই চিন্তা করি: যখন আমি কোনও তথ্য তত্ত্বের লোক শুনতে পাই "বার্তার দৈর্ঘ্য", তখন আমার মস্তিষ্ক বলে "অবাক"। আশ্চর্য হ'ল 1.) এলোমেলো এবং 2.) বিষয়গত।

এক্সকুই(এক্স)-লগকুই(এক্স)

কুইএক্সপিপিপি[-লগপি(এক্স)]কুইপিপি[-লগকুই(এক্স)]

"তারা কতটা আলাদা" সে সম্পর্কে চিন্তা না করে আমি "ভুল বিতরণ ব্যবহার করে প্রত্যাশিত আশ্চর্য বৃদ্ধি" নিয়ে ভাবি। এটি সমস্ত লগারিদমের বৈশিষ্ট্য থেকে।

পি[লগ(পি(এক্স)কুই(এক্স))]=পি[-লগকুই(এক্স)]-পি[-লগপি(এক্স)]0।

সম্পাদন করা

-লগ(কুই(এক্স))কুই

এক্সকুইএক্স0-লগ(0)=10

-লগ

কুই(এক্স)>1

এক্স~কুইএক্স(এক্স)ওয়াই=একটিএক্স+ +~কুইএক্স((Y-)/একটি)|1/একটি|এক্স-লগকুইএক্স(এক্স)-লগকুইওয়াই(ওয়াই)

(এক্স-এক্স)2

সম্পাদনা 2: দেখে মনে হচ্ছে যে আমিই একা নন যিনি এটিকে "আশ্চর্য" হিসাবে মনে করেন। থেকে এখানে :

Yθ-2লগ{পি(Y|θ)}


1
-লগ(কুই(এক্স))কুই

1
টিটি(এক্স)=একটিএক্সএকটি0টিটি(এক্স)এক্সটি(এক্স)এক্স-লগকুইটি(এক্স)(টি(এক্স))>-লগকুইএক্স(এক্স)

(এক্স-[এক্স])2
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.