ক্রস যাচাইয়ের অনেক ট্রলিংয়ের পরেও আমি এখনও মনে করি না যে আমি তথ্য তত্ত্বের ক্ষেত্রের বাইরে কেএল ডাইভারজেন্স বোঝার আরও কাছাকাছি। ম্যাথ ব্যাকগ্রাউন্ডের কারও মতো তথ্য তত্ত্বের ব্যাখ্যাটি বোঝার পক্ষে এটি আরও সহজ খুঁজে পাওয়ার পক্ষে এটি অদ্ভুত।
একটি তথ্য তত্ত্বের পটভূমি থেকে আমার বোঝার বাহ্যরেখা: যদি আমাদের সীমিত সংখ্যক ফলাফলের সাথে একটি এলোমেলো পরিবর্তনশীল থাকে তবে একটি অনুকূল এনকোডিং উপস্থিত রয়েছে যা আমাদের সাথে গড়পড়তা সংক্ষিপ্ত বার্তা দিয়ে অন্য কারও সাথে ফলাফলটি যোগাযোগ করতে দেয় (আমি এটিকে সবচেয়ে সহজ বলে মনে করি) বিট পদে চিত্র)। ফলাফলটি জানানোর জন্য যে বার্তাটির প্রত্যাশিত দৈর্ঘ্যটি হবে তা প্রদত্ত যদি সর্বোত্তম এনকোডিং ব্যবহার করা হয়। আপনি যদি একটি সর্বোত্তম এনকোডিং ব্যবহার করতে চান তবে কেএল ডাইভার্জেন্স আমাদের বার্তাটি কত দীর্ঘ সময় দেবে তা গড়ে আমাদের জানান।
আমি এই ব্যাখ্যাটি পছন্দ করি কারণ এটি স্বজ্ঞাতভাবে কেএল ডাইভার্জেন্সের অসম্পূর্ণতার সাথে কাজ করে। আমাদের যদি দুটি পৃথক সিস্টেম থাকে, অর্থাত্ দুটি লোড হওয়া কয়েন যা আলাদাভাবে লোড হয়, তাদের আলাদা আলাদা অনুকূল এনকোডিং থাকবে। আমি কোনওভাবেই সহজাতভাবে অনুভব করি না যে প্রথমটির জন্য দ্বিতীয় সিস্টেমের এনকোডিংটি দ্বিতীয়টির জন্য প্রথম সিস্টেমের এনকোডিংটি ব্যবহার করা "সমানভাবে খারাপ"। কীভাবে আমি নিজেকে বুঝিয়েছি এই চিন্তার প্রক্রিয়াটি না পেরে আমি এখন যথেষ্ট খুশি যে এর জন্য এর এনকোডিং ব্যবহার করার সময় আপনাকে এই "অতিরিক্ত প্রত্যাশিত বার্তার দৈর্ঘ্য" দেয় ।কিউপি
তবে, উইকিপিডিয়াসহ কেএল ডাইভার্জেন্সের বেশিরভাগ সংজ্ঞা তখন বিবৃতি দেয় (এটিকে পৃথক শর্তে রেখে যাতে এটি তথ্যের তত্ত্বের ব্যাখ্যার সাথে তুলনা করা যায় যা বিট হিসাবে বিচ্ছিন্ন পদগুলিতে আরও ভাল কাজ করে) যে আমাদের যদি দুটি পৃথক সম্ভাবনা থাকে বিতরণ, তারপরে কেএল "তারা কতটা আলাদা" এর কিছু মেট্রিক সরবরাহ করে। এই দুটি ধারণাটি কীভাবে সম্পর্কিত, তার একটিমাত্র ব্যাখ্যা আমি এখনও দেখতে পাইনি। অনুমান সম্পর্কিত তাঁর বইটিতে আমার মনে আছে, ডেভ ম্যাকে কীভাবে ডেটা সংক্ষেপণ এবং অনুমানগুলি মূলত একই জিনিসটি সম্পর্কে পয়েন্টগুলি তৈরি করে এবং আমার সন্দেহ হয় যে আমার প্রশ্নটি সত্যই এর সাথে সম্পর্কিত।
তা যাই হোক না কেন তা নির্বিশেষে আমার মনে যে ধরণের প্রশ্ন রয়েছে তা অনুমানের সমস্যাগুলির চারপাশে। (বিষয়গুলি পৃথক করে রাখা), যদি আমাদের কাছে দুটি তেজস্ক্রিয় নমুনা থাকে এবং আমরা জানি যে এর মধ্যে একটি হল নির্দিষ্ট তেজস্ক্রিয়তা সহ একটি নির্দিষ্ট উপাদান (এটি সন্দেহজনক পদার্থবিজ্ঞান তবে মহাবিশ্বটি এর মতো কাজ করে দেখায়) এবং সুতরাং আমরা "সত্য" বিতরণটি জানি তেজস্ক্রিয় ক্লিকের আমাদের পরিমাপ করা উচিত জ্ঞাত- সহ পোষোনিয়ান হওয়া উচিত , উভয় নমুনার জন্য একটি অনুশীলনমূলক বিতরণ তৈরি করা এবং তাদের কেএল ডাইভারজেন্সগুলি পরিচিত বন্টনের সাথে তুলনা করা এবং নীচের অংশে উপাদানটি হওয়ার সম্ভাবনা কম বলে মনে করা উচিত?
সন্দেহজনক পদার্থবিজ্ঞান থেকে দূরে সরে যাওয়া, যদি আমি জানি যে একই ডিস্ট্রিবিউশন থেকে দুটি নমুনা টানা হয়েছে তবে আমি জানি যে তারা এলোমেলোভাবে নির্বাচিত হয়নি, তাদের কেএল ডাইভার্জেন্সগুলি পরিচিতের সাথে তুলনা করবে, বিশ্বব্যাপী বিতরণ আমাকে নমুনা "কতটা পক্ষপাতদুষ্ট" করার জন্য অনুভূতি দেয় , যাইহোক এক এবং অন্যের তুলনায়?
এবং শেষ অবধি, যদি পূর্ববর্তী প্রশ্নের উত্তর হ্যাঁ হয়, তবে কেন? তথ্য তত্ত্বের সাথে কোনও (সম্ভবত ধনাত্মক) সংযোগ না করে একা একটি পরিসংখ্যানিক দৃষ্টিকোণ থেকে এই বিষয়গুলি বোঝা সম্ভব?