বাহ, দুর্দান্ত প্রশ্ন! রেজোলিউশনটি ব্যাখ্যা করার চেষ্টা করি। এটি তিনটি স্বতন্ত্র পদক্ষেপ গ্রহণ করবে।
প্রথমে লক্ষ্য করার বিষয়টি হল যে এনট্রপিটি প্রতি ড্রয়ের জন্য প্রয়োজনীয় বিটগুলির গড় সংখ্যার উপর আরও বেশি কেন্দ্রীভূত হয় , সর্বাধিক বিটের প্রয়োজনীয় সংখ্যা নয়।
আপনার স্যাম্পলিং পদ্ধতি সঙ্গে, ড্র প্রতি প্রয়োজনীয় র্যান্ডম বিট সর্বোচ্চ সংখ্যা হল N বিট, কিন্তু প্রয়োজন বিট গড় সংখ্যা 2 বিট (সঙ্গে একটি জ্যামিতিক বিতরণের গড় p=1/2 ) - এর কারণ আছে একটি 1/2 সম্ভাব্যতা আপনি শুধুমাত্র 1 বিট প্রয়োজন (প্রথম বিট সক্রিয় আউট যদি 1 হতে), একটি 1/4 সম্ভাব্যতা আপনি শুধুমাত্র 2 বিট প্রয়োজন (যদি প্রথম দুই বিট শয্যাত্যাগ 01 হতে), একটি 1/8 সম্ভাবনা যে আপনার কেবলমাত্র 3 টি বিট প্রয়োজন (যদি প্রথম তিনটি বিটগুলি 001 হয়ে যায়), ইত্যাদি।
দ্বিতীয় বিষয়টি লক্ষণীয় হ'ল এনট্রপি সত্যই কোনও একক ড্রয়ের জন্য প্রয়োজনীয় বিটগুলির গড় সংখ্যা ক্যাপচার করে না। পরিবর্তে, এনট্রপি যেমনটি amortized নমুনা প্রয়োজন বিট সংখ্যা m IID এই ডিস্ট্রিবিউশন থেকে স্বপক্ষে। ধরুন এম ড্র করার নমুনার জন্য আমাদের f(m) বিট প্রয়োজন ; তারপর এনট্রপি মাত্রা হল চ ( মি ) / মি যেমন মি → ∞ ।mf(m)/mm→∞
তৃতীয় বিষয়টি লক্ষণীয় হ'ল, এই বিতরণ সহ, আপনি বার বার একটি ড্র নমুনার প্রয়োজনের চেয়ে কম বিট দিয়ে m আইড ড্র করতে পারেন sample ধরুন আপনি নির্লজ্জভাবে একটি নমুনা আঁকানোর সিদ্ধান্ত নিয়েছেন (গড় হিসাবে 2 টি এলোমেলো বিট লাগে), তারপরে অন্য একটি নমুনা আঁকুন (গড়ে আরও 2 টি এলোমেলো বিট ব্যবহার করে), এবং আরও কতক্ষণ আপনি এই m বারটি পুনরাবৃত্তি না করেছেন? এর জন্য গড়ে প্রায় 2m এলোমেলো বিট লাগবে ।
তবে দেখা যাচ্ছে যে m অঙ্কন থেকে 2m বিট কম ব্যবহার করে নমুনার উপায় রয়েছে । বিশ্বাস করা শক্ত, তবে এটি সত্য!
আমি আপনাকে অন্তর্দৃষ্টি দিতে দিন। মনে করুন আপনি m অঙ্কনের নমুনার ফলাফলটি লিখেছেন , যেখানে m সত্যিই বড়। তারপরে ফলাফলটি m বিট স্ট্রিং হিসাবে নির্দিষ্ট করা যেতে পারে । এই m বিট স্ট্রিংটি বেশিরভাগ 0 টি হবে, এতে কয়েকটি 1 থাকবে: বিশেষত, এটির প্রায় m/2N 1 থাকবে (এর চেয়ে কম বা কম হতে পারে, তবেm যথেষ্ট পরিমাণ বড় হলে সাধারণত সংখ্যাটি হয়) এর কাছাকাছি থাকবে)। 1 এর মধ্যে ফাঁকগুলির দৈর্ঘ্য এলোমেলো, তবে সাধারণত 2 এন এর আশেপাশে কোথাও অস্পষ্ট হবে be2N(সহজেই তার অর্ধেক বা তার দ্বিগুণ বা আরও বেশি হতে পারে, তবে সেই পরিমাণের ক্রম)। অবশ্যই, পুরো m বিট স্ট্রিংটি লেখার পরিবর্তে , আমরা ফাঁকগুলির দৈর্ঘ্যের একটি তালিকা লিখে আরও সংক্ষিপ্তভাবে এটি লিখতে পারতাম - যা একই একই তথ্যকে আরও সংকুচিত বিন্যাসে বহন করে। আর কতটা সংহত? ঠিক আছে, প্রতিটি ফাঁকের দৈর্ঘ্যের প্রতিনিধিত্ব করার জন্য আমাদের প্রায় N বিট লাগবে; এবং প্রায় m/2N ফাঁক থাকবে; সুতরাং আমাদের মোট mN/2N বিটগুলির প্রয়োজন হবে (কিছুটা আরও বেশি হতে পারে, কিছুটা কমও হতে পারে, তবে যদি m যথেষ্ট পরিমাণে বড় হয় তবে এটি সাধারণত এর কাছাকাছিই থাকব)। এটি একটি এর চেয়ে অনেক খাটোm বিট স্ট্রিং
এবং যদি স্ট্রিংটিকে এই সংক্ষেপে লেখার কোনও উপায় থাকে তবে সম্ভবত এটি খুব অবাক হওয়ার কারণ হবে না যদি তার মানে স্ট্রিংয়ের দৈর্ঘ্যের সাথে তুলনীয় বেশ কয়েকটি এলোমেলো বিট সহ স্ট্রিং উত্পন্ন করার উপায় রয়েছে। বিশেষত, আপনি এলোমেলোভাবে প্রতিটি ফাঁকের দৈর্ঘ্য উত্পন্ন করেন; এই সঙ্গে একটি জ্যামিতিক বন্টন থেকে স্যাম্পলিং হয় p=1/2N , এবং যে মোটামুটিভাবে দিয়ে করা যাবে ∼N গড় (না র্যান্ডম বিট 2N )। সম্পর্কে আপনার প্রয়োজন হবে m/2N IID এই জ্যামিতিক বন্টন থেকে স্বপক্ষে, তাই আপনি মোট প্রয়োজন হবে মোটামুটিভাবে ∼Nm/2Nএলোমেলো বিট (এটি একটি ছোট ধ্রুবক ফ্যাক্টর বৃহত্তর হতে পারে তবে খুব বেশি বড় নয় notice) এবং লক্ষ করুন যে এটি 2m বিটের চেয়ে অনেক ছোট ।
সুতরাং, আমরা নমুনা পারেন m IID আপনার বন্টন থেকে স্বপক্ষে, শুধু ব্যবহার f(m)∼Nm/2N র্যান্ডম বিট (প্রায়)। মনে রাখবেন যে এনট্রপিটি limm→∞f(m)/m । সুতরাং এর অর্থ হল আপনার এনট্রপিটি (মোটামুটিভাবে) N/2N । এটি অল্প অল্প করেই বন্ধ হয়ে গেছে, কারণ উপরের গণনাটি স্কেচি এবং অশোধিত ছিল - তবে আশা করা যায় এটি আপনাকে এন্ট্রপিটি কী এবং কেন সবকিছু সামঞ্জস্যপূর্ণ এবং যুক্তিসঙ্গত সে সম্পর্কে কিছু অন্তর্দৃষ্টি দেয়।