০.৯২২ এর শ্যানন এন্ট্রপি, ৩ টি পৃথক মান


14

মানগুলির একটি স্ট্রিং দেওয়া , লগ বেস এ শ্যানন এন্ট্রপি  আসে । আমি যা বুঝতে পারি তা থেকে, বেস  -তে শ্যানন এন্ট্রপিটি বৃত্তাকার আপ হ'ল বাইনারিতে সর্বনিম্ন বিটগুলির মানগুলির একটিতে প্রতিনিধিত্ব করতে হবে bAAAAAAAABC20.9222

এই উইকিপিডিয়া পৃষ্ঠায় ভূমিকা থেকে নেওয়া:

https://en.wikipedia.org/wiki/Entropy_%28information_theory%29

সুতরাং, তিনটি মানকে কীভাবে বিট দ্বারা উপস্থাপন করা যায়?  হতে পারে  ,  হতে পারে  ; কিন্তু আপনি কিভাবে উপস্থাপন করতে পারেন  ?A1B0C

তুমাকে অগ্রিম ধন্যবাদ.

উত্তর:


16

আপনি যে এনট্রোপি গণনা করেছেন তা সত্যিকারের স্ট্রিংয়ের জন্য নয় বরং সম্ভাব্যতা 8 এর সাথে  A উৎপন্ন প্রতীকগুলির এলোমেলো উত্সের জন্য isn't810 , এবংBএবং Cসম্ভাব্যতা 110 প্রতিটি, পরপর চিহ্নগুলির মধ্যে কোনও সম্পর্ক নেই। এই বিতরণের জন্য গণনা করা এনট্রপি,0.922অর্থ হল আপনিগড়ে প্রতি চরিত্রে0.922বিটেরচেয়ে কমবিটব্যবহার করে এই বিতরণ থেকে উত্পন্ন স্ট্রিংগুলি উপস্থাপন করতে পারবেন না।

একটি কোড বিকাশ করা বেশ কঠিন হতে পারে যা এই হারটি অর্জন করবে। * উদাহরণস্বরূপ, যাও Huffman কোড বরাদ্দ হবে কোডিং 0 , 10 এবং  11 থেকে A , B এবং  C , যথাক্রমে গড়ে জন্য 1.2  চরিত্র প্রতি বিট। এটি এনট্রপি থেকে বেশ দূরে, যদিও চরিত্র অনুসারে দুটি বিটের भोটি এনকোডিংয়ের চেয়ে এখনও ভাল কাজ। একটি উন্নততর কোডিং সম্ভবত সত্য যে এমনকি দশ পরপর একটি রান কাজে লাগান হবে যে কোনো প্রয়াস A গুলি সম্ভাবনা বেশি আছে (সম্ভাব্যতা 0.107 ) একটা একক চেয়ে  B


* দেখা যাচ্ছে যে আপনি চান হিসাবে কাছাকাছি পাওয়া কঠিন নয় - অন্যান্য উত্তর দেখুন!


18

এখানে একটি কংক্রিট এনকোডিং রয়েছে যা প্রতিটি প্রতীকে গড়ে ১ বিটেরও কম সময়ে প্রতিনিধিত্ব করতে পারে:

প্রথমে, ইনপুট স্ট্রিংটিকে পরপর অক্ষরের জোরে বিভক্ত করুন (উদাঃ এএএএএএএএবিসি হয়ে যায় এএ | এএ | এএ | এএ | বিসি)। তারপরে এএকে 0 হিসাবে এন্ডোড, এবি 100 হিসাবে, এসি 101, বিএ 1110, সিবি 111100, বিসি 1111101, সিবি 111110, সিসি 111111 হিসাবে। আমি কি বলিনি যদি কোন বিজোড় থাকে তবে কি হয় প্রতীক সংখ্যা, কিন্তু আপনি কিছু স্বেচ্ছাসেবী এনকোডিং ব্যবহার করে শেষ চিহ্নটি এনকোড করতে পারেন, ইনপুট দীর্ঘ হওয়ার পরে তা আসলে আসবে না doesn't

এটি স্বতন্ত্র জোড় প্রতীক বিতরণের জন্য হাফম্যান কোড এবং ইউভালের উত্তরে n=2 বেছে নেওয়ার সাথে মিলে যায় । বৃহত্তর n আরও উন্নত কোডগুলিতে নেতৃত্ব দেবে (শানন এনট্রপির সীমাতে তিনি উল্লেখ করেছিলেন)।

উপরের এনকোডিংয়ের জন্য প্রতি জোড়া জোড় বিটের গড় সংখ্যা 8 is

8108101+38101103+1108104+41101106=1.92
অর্থাত্1.92/2=0.96বিট প্রতীক হিসাবে, শ্যানন এন্ট্রপি থেকে আসলে এত সহজ এনকোডিংয়ের চেয়ে বেশি দূরে নয়।


13

যাক D উপর নিম্নলিখিত বন্টন হতে {A,B,C} যদি XD তারপর Pr[X=A]=4/5 এবং Pr[X=B]=Pr[X=C]=1/10

প্রত্যেকের জন্য n আমরা গঠন করা যেতে পারে প্রিফিক্স কোডগুলি Cn:{A,B,C}n{0,1} যেমন যে

limnEX1,,XnD[Cn(X1,,Xn)]n=H(D).

কথায় কথায়, আমরা যদি D থেকে প্রচুর পরিমাণে স্বতন্ত্র নমুনাগুলি এনকোড করি তবে আমাদের গড়ে প্রতি নমুনায় H(D)0.922 বিট দরকার। স্বজ্ঞাতভাবে, যে কারণে আমরা একেরও কম কিছু করতে পারি তা হ'ল প্রতিটি স্বতন্ত্র নমুনা সম্ভবত A হতে পারে ।

এটি এনট্রপির আসল অর্থ এবং এটি দেখায় যে একটি স্ট্রিং A8BC এর "এনট্রপি" গণনা করা একটি বরং অর্থহীন অনুশীলন।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.