এন র্যান্ডম বিটের চেয়ে কম 1 এর 2 ^ N এর সম্ভাবনা সিমুলেট করা

বলুন যে আমাকে নিম্নলিখিত বিচ্ছিন্ন বিতরণ অনুকরণ করতে হবে:

P (X = k) = {\begin{cases} \frac{1}{2^{N}}, & if k = 1 \\ 1 - \frac{1}{2^{N}}, & if k = 0 \end{cases}

$P(X = k) = \begin{cases} \frac{1}{2^N}, & \text{if $k = 1$} \\ 1 - \frac{1}{2^N}, & \text{if $k = 0$} \end{cases}$

সর্বাধিক সুস্পষ্ট উপায় হ'ল $N$ এলোমেলো বিটগুলি আঁকতে এবং সেগুলির সবগুলি $0$ (বা $1$ ) এর সমান কিনা তা পরীক্ষা করা । তবে তথ্য তত্ত্বটি বলেছে

\begin{aligned} S & = - \sum_{i} P_{i} \log P_{i} \\ = - \frac{1}{2^{N}} \log \frac{1}{2^{N}} - (1 - \frac{1}{2^{N}}) \log (1 - \frac{1}{2^{N}}) \\ = \frac{1}{2^{N}} \log 2^{N} + (1 - \frac{1}{2^{N}}) \log \frac{2^{N}}{2^{N} - 1} \\ \to 0 \end{aligned}

$\begin{align} S & = - \sum_{i} P_i \log{P_i} \\ & = - \frac{1}{2^N} \log{\frac{1}{2^N}} - \left(1 - \frac{1}{2^N}\right) \log{\left(1 - \frac{1}{2^N}\right)} \\ & = \frac{1}{2^N} \log{2^N} + \left(1 - \frac{1}{2^N}\right) \log{\frac{2^N}{2^N - 1}} \\ & \rightarrow 0 \end{align}$

সুতরাং র্যান্ডম বিট ন্যূনতম নম্বর আবশ্যক আসলে কমে যায় যেমন $N$ বৃহৎ যায়। এটা কিভাবে সম্ভব?

অনুমান করুন যে আমরা এমন একটি কম্পিউটারে চলছি যেখানে বিটগুলি আপনার এলোমেলোতার একমাত্র উত্স, তাই আপনি কেবল পক্ষপাতদুষ্ট মুদ্রা টস করতে পারবেন না।

— nalzok
সূত্র

কোডিং তত্ত্ব এবং কোলমোগোরভ জটিলতার সাথে এটি নিবিড়ভাবে সম্পর্কিত, যদি আপনি গভীর অনুসন্ধানের জন্য কীওয়ার্ডগুলি সন্ধান করেন। DW নীচে উল্লিখিত একই বিটের পুনরাবৃত্তি রান গণনা করার কৌশলটি অনেকগুলি সামনে আসে - এই লেকচার নোটগুলি এতে স্পর্শ করে উদাহরণস্বরূপ people.cs.uchicago.edu/~fortnow/papers/kaikoura.pdf

— ব্রায়ান গর্ডন

বাহ, দুর্দান্ত প্রশ্ন! রেজোলিউশনটি ব্যাখ্যা করার চেষ্টা করি। এটি তিনটি স্বতন্ত্র পদক্ষেপ গ্রহণ করবে।

প্রথমে লক্ষ্য করার বিষয়টি হল যে এনট্রপিটি প্রতি ড্রয়ের জন্য প্রয়োজনীয় বিটগুলির গড় সংখ্যার উপর আরও বেশি কেন্দ্রীভূত হয় , সর্বাধিক বিটের প্রয়োজনীয় সংখ্যা নয়।

আপনার স্যাম্পলিং পদ্ধতি সঙ্গে, ড্র প্রতি প্রয়োজনীয় র্যান্ডম বিট সর্বোচ্চ সংখ্যা হল $N$ বিট, কিন্তু প্রয়োজন বিট গড় সংখ্যা 2 বিট (সঙ্গে একটি জ্যামিতিক বিতরণের গড় $p=1/2$ ) - এর কারণ আছে একটি $1/2$ সম্ভাব্যতা আপনি শুধুমাত্র 1 বিট প্রয়োজন (প্রথম বিট সক্রিয় আউট যদি 1 হতে), একটি $1/4$ সম্ভাব্যতা আপনি শুধুমাত্র 2 বিট প্রয়োজন (যদি প্রথম দুই বিট শয্যাত্যাগ 01 হতে), একটি $1/8$ সম্ভাবনা যে আপনার কেবলমাত্র 3 টি বিট প্রয়োজন (যদি প্রথম তিনটি বিটগুলি 001 হয়ে যায়), ইত্যাদি।

দ্বিতীয় বিষয়টি লক্ষণীয় হ'ল এনট্রপি সত্যই কোনও একক ড্রয়ের জন্য প্রয়োজনীয় বিটগুলির গড় সংখ্যা ক্যাপচার করে না। পরিবর্তে, এনট্রপি যেমনটি amortized নমুনা প্রয়োজন বিট সংখ্যা $m$ IID এই ডিস্ট্রিবিউশন থেকে স্বপক্ষে। ধরুন ড্র করার নমুনার জন্য আমাদের $f(m)$ বিট প্রয়োজন ; তারপর এনট্রপি মাত্রা হল যেমন । $m$ $f(m)/m$ $m \to \infty$

তৃতীয় বিষয়টি লক্ষণীয় হ'ল, এই বিতরণ সহ, আপনি বার বার একটি ড্র নমুনার প্রয়োজনের চেয়ে কম বিট দিয়ে $m$ আইড ড্র করতে পারেন sample ধরুন আপনি নির্লজ্জভাবে একটি নমুনা আঁকানোর সিদ্ধান্ত নিয়েছেন (গড় হিসাবে 2 টি এলোমেলো বিট লাগে), তারপরে অন্য একটি নমুনা আঁকুন (গড়ে আরও 2 টি এলোমেলো বিট ব্যবহার করে), এবং আরও কতক্ষণ আপনি এই $m$ বারটি পুনরাবৃত্তি না করেছেন? এর জন্য গড়ে প্রায় $2m$ এলোমেলো বিট লাগবে ।

তবে দেখা যাচ্ছে যে $m$ অঙ্কন থেকে $2m$ বিট কম ব্যবহার করে নমুনার উপায় রয়েছে । বিশ্বাস করা শক্ত, তবে এটি সত্য!

আমি আপনাকে অন্তর্দৃষ্টি দিতে দিন। মনে করুন আপনি $m$ অঙ্কনের নমুনার ফলাফলটি লিখেছেন , যেখানে $m$ সত্যিই বড়। তারপরে ফলাফলটি $m$ বিট স্ট্রিং হিসাবে নির্দিষ্ট করা যেতে পারে । এই $m$ বিট স্ট্রিংটি বেশিরভাগ 0 টি হবে, এতে কয়েকটি 1 থাকবে: বিশেষত, এটির প্রায় $m/2^N$ 1 থাকবে (এর চেয়ে কম বা কম হতে পারে, তবে $m$ যথেষ্ট পরিমাণ বড় হলে সাধারণত সংখ্যাটি হয়) এর কাছাকাছি থাকবে)। 1 এর মধ্যে ফাঁকগুলির দৈর্ঘ্য এলোমেলো, তবে সাধারণত আশেপাশে কোথাও অস্পষ্ট হবে be $2^N$ (সহজেই তার অর্ধেক বা তার দ্বিগুণ বা আরও বেশি হতে পারে, তবে সেই পরিমাণের ক্রম)। অবশ্যই, পুরো $m$ বিট স্ট্রিংটি লেখার পরিবর্তে , আমরা ফাঁকগুলির দৈর্ঘ্যের একটি তালিকা লিখে আরও সংক্ষিপ্তভাবে এটি লিখতে পারতাম - যা একই একই তথ্যকে আরও সংকুচিত বিন্যাসে বহন করে। আর কতটা সংহত? ঠিক আছে, প্রতিটি ফাঁকের দৈর্ঘ্যের প্রতিনিধিত্ব করার জন্য আমাদের প্রায় $N$ বিট লাগবে; এবং প্রায় $m/2^N$ ফাঁক থাকবে; সুতরাং আমাদের মোট $mN/2^N$ বিটগুলির প্রয়োজন হবে (কিছুটা আরও বেশি হতে পারে, কিছুটা কমও হতে পারে, তবে যদি $m$ যথেষ্ট পরিমাণে বড় হয় তবে এটি সাধারণত এর কাছাকাছিই থাকব)। এটি একটি এর চেয়ে অনেক খাটো $m$ বিট স্ট্রিং

এবং যদি স্ট্রিংটিকে এই সংক্ষেপে লেখার কোনও উপায় থাকে তবে সম্ভবত এটি খুব অবাক হওয়ার কারণ হবে না যদি তার মানে স্ট্রিংয়ের দৈর্ঘ্যের সাথে তুলনীয় বেশ কয়েকটি এলোমেলো বিট সহ স্ট্রিং উত্পন্ন করার উপায় রয়েছে। বিশেষত, আপনি এলোমেলোভাবে প্রতিটি ফাঁকের দৈর্ঘ্য উত্পন্ন করেন; এই সঙ্গে একটি জ্যামিতিক বন্টন থেকে স্যাম্পলিং হয় $p=1/2^N$ , এবং যে মোটামুটিভাবে দিয়ে করা যাবে $\sim N$ গড় (না র্যান্ডম বিট $2^N$ )। সম্পর্কে আপনার প্রয়োজন হবে $m/2^N$ IID এই জ্যামিতিক বন্টন থেকে স্বপক্ষে, তাই আপনি মোট প্রয়োজন হবে মোটামুটিভাবে $\sim Nm/2^N$ এলোমেলো বিট (এটি একটি ছোট ধ্রুবক ফ্যাক্টর বৃহত্তর হতে পারে তবে খুব বেশি বড় নয় notice) এবং লক্ষ করুন যে এটি $2m$ বিটের চেয়ে অনেক ছোট ।

সুতরাং, আমরা নমুনা পারেন $m$ IID আপনার বন্টন থেকে স্বপক্ষে, শুধু ব্যবহার $f(m) \sim Nm/2^N$ র্যান্ডম বিট (প্রায়)। মনে রাখবেন যে এনট্রপিটি $\lim_{m \to \infty} f(m)/m$ । সুতরাং এর অর্থ হল আপনার এনট্রপিটি (মোটামুটিভাবে) $N/2^N$ । এটি অল্প অল্প করেই বন্ধ হয়ে গেছে, কারণ উপরের গণনাটি স্কেচি এবং অশোধিত ছিল - তবে আশা করা যায় এটি আপনাকে এন্ট্রপিটি কী এবং কেন সবকিছু সামঞ্জস্যপূর্ণ এবং যুক্তিসঙ্গত সে সম্পর্কে কিছু অন্তর্দৃষ্টি দেয়।

— ডিডাব্লিউ
সূত্র

বাহ, দুর্দান্ত উত্তর! তবে আপনি কী জ্যামিতিক ডিস্ট্রিবিউশন থেকে

দিয়ে নমুনা দেওয়ার বিষয়টি বিশদভাবে বলতে পারেন

গড়ে

বিটনেয়? আমি জানি যে এ জাতীয় এলোমেলো ভেরিয়েবলের গড় পরিমাণ

, সুতরাং এটিসংরক্ষণ করতেগড়ে

বিটলাগে, তবে আমি মনে করি এর অর্থ এই নয় যে আপনি

বিটদিয়ে একটি উত্পন্ন করতে পারবেন।

p = \frac{1}{2^{N}}

$p=\frac{1}{2^N}$

N

$N$

2^{N}

$2^N$

N

$N$

N

$N$

— নলজোক

@ নলজোক, একটি সুস্পষ্ট প্রশ্ন! আপনি সম্ভবত একটি পৃথক প্রশ্ন হিসাবে জিজ্ঞাসা করতে পারেন? এটি কীভাবে করব তা আমি দেখতে পাচ্ছি তবে এই মুহুর্তে টাইপ করা কিছুটা অগোছালো। আপনি যদি জিজ্ঞাসা করেন তবে আমার চেয়ে দ্রুত কেউ উত্তর দিতে পারবে। আমি যে পদ্ধতির কথা ভাবছি তা পাটিগণিত কোডিংয়ের অনুরূপ। নির্ধারণ

(যেখানে

জ্যামিতিক আরভি হয়), তারপর একটি র্যান্ডম সংখ্যা উৎপন্ন

ব্যবধান

, এবং এটি

যেমন যে

q_{i} = Pr [X \leq i]

$q_i = \Pr[X\le i]$

X

$X$

r

$r$

[0, 1)

$[0,1)$

i

$i$

q_{i} \leq r < q_{i + 1}

$q_i \le r < q_{i+1}$ । আপনি বাইনারি expension এর বিট নিচে লেখেন, তাহলে

একটি সময়ে এক সাধারণত নিচে লেখা পরে,

এর বিট

সম্পূর্ণরূপে নির্ধারিত হবে।

r

$r$

N + O (1)

$N+O(1)$

r

$r$

i

$i$

— DW

সুতরাং আপনি বাইনারি অনুসন্ধানের অনুরূপ ধারণার সাথে মিলিয়ে একটি স্বেচ্ছাসেবী বিতরণে অভিন্ন বিতরণ করা এলোমেলো ভেরিয়েবলকে রূপান্তর করতে মূলত বিপরীত সিডিএফ পদ্ধতিটি ব্যবহার করছেন? জ্যামিতিক বিতরণের কোয়ান্টাইল ফাংশনটি বিশ্লেষণ করতে হবে তা নিশ্চিত হওয়ার জন্য, তবে এই ইঙ্গিতটি যথেষ্ট। ধন্যবাদ!

— নলজোক

@ নলজোক, আহ, হ্যাঁ, এটি সম্পর্কে চিন্তা করার এক দুর্দান্ত উপায় - সুদৃশ্য। পরামর্শ দেওয়ার জন্য আপনাকে ধন্যবাদ। হ্যাঁ, এটাই আমার মনে ছিল।

— DW

আপনি এটি পিছনের দিকে ভাবতে পারেন: প্রজন্মের পরিবর্তে বাইনারি এনকোডিংয়ের সমস্যাটি বিবেচনা করুন। ধরুন আপনি একটি উৎস আছে যে নিঃসরণ করে প্রতীক $X\in \{A,B\}$ সঙ্গে $p(A)=2^{-N}$ , $p(B)=1-2^{-N}$ । উদাহরণস্বরূপ, যদি $N=3$ তবে আমরা $H(X)\approx 0.54356$ । সুতরাং (শ্যানন আমাদের জানান) একটি অনন্যভাবে ডিকোডেবল বাইনারি এনকোডিং $X \to Y$ , যেখানে $Y \in \{0,1\}$ (ডাটা বিট), যেমন যে আমরা প্রয়োজন গড়ে প্রায় $0.54356$ প্রতিটি মূল প্রতীক জন্য তথ্য বিট $X$ ।

(আপনি যদি ভাবছেন যে এই জাতীয় এনকোডিংটি কীভাবে বিদ্যমান থাকতে পারে তবে আমাদের কাছে কেবল দুটি উত্স প্রতীক রয়েছে এবং এটি মনে হয় যে তুচ্ছ এনকোডিং, $A\to 0$ , $B\to 1$ , প্রতি চিহ্নের জন্য একটি বিট সহ আপনার প্রয়োজন শ্যানন বাউন্ডকে আনুমানিকভাবে বুঝতে হলে আমাদের উত্সটির "এক্সটেনশনগুলি" নেওয়া দরকার, অর্থাৎ সামগ্রিকভাবে ইনপুটগুলির ক্রম কোডটি আনতে হবে particular নির্দিষ্ট গাণিতিক এনকোডিং দেখুন)।

$X^n \to Y^n$ $Y^n$ must have maximum entropy (1 bit of information per bit of data), i.e., $Y^n$ has the statistics of a fair coin, then we have a generation scheme at hand: draw $n$ random bits (here $n$ has no relation with $N$ ) with a fair coin, interpret it as the output $Y^n$ of the encoder, and decode $X^n$ from it. In this way, $X^n$ will have the desired probability distribution, and we need (in average) $H(X)<1$ coins to generate each value of $X$ .

— leonbloy
সূত্র