লসলেস কম্প্রেশন অ্যালগোরিদমগুলি কী এন্ট্রপি হ্রাস করে?


35

উইকিপিডিয়া অনুসারে :

শ্যাননের এনট্রপি কোনও বার্তায় থাকা তথ্যের পরিমাপ করে যা বার্তার যে অংশ নির্ধারিত হয় (বা ভবিষ্যদ্বাণীযোগ্য) তার বিপরীতে থাকে। পরবর্তীগুলির উদাহরণগুলির মধ্যে ভাষা কাঠামোয় বা অতিরিক্ত বর্ণ বা শাবলীর জোড়, ট্রিপলস ইত্যাদির সংক্রমণের সাথে সম্পর্কিত পরিসংখ্যানগত বৈশিষ্ট্যগুলিতে অপ্রয়োজনীয়তা অন্তর্ভুক্ত থাকে include

সুতরাং এনট্রপি একটি বার্তায় থাকা তথ্যের পরিমাণের একটি পরিমাপ। এন্ট্রপি কোডারগুলি ক্ষতিকারক একটি বার্তাটিকে প্রতিনিধিত্ব করতে প্রয়োজনীয় বিটগুলির সর্বনিম্ন সংখ্যায় সংকোচনের জন্য ব্যবহৃত হয় (এনট্রপি)। আমার কাছে এটি দেখতে মনে হচ্ছে একটি নিখুঁত এনট্রপি এনকোডার যতদূর সম্ভব মেসেজ সঙ্কুচিত করতে ক্ষতির প্রয়োজন all

অনেকগুলি সংক্ষেপণ অ্যালগরিদম তবে বার্তাটির এনট্রপি অনুমান করার জন্য এনট্রপি কোডিংয়ের আগে পদক্ষেপগুলি ব্যবহার করে।

জার্মান উইকিপিডিয়া অনুসারে

এন্ট্রপিকোডিয়ারার ওয়ার্ডেন হুফিগ মিট অ্যান্ডেরেন কোডিয়ের্ন কোম্বিনিয়ার্ট। দাবেই দীনেন ভার্জেচাল্টে ভার্ফাহরেন ডাজু, ডাই এন্ট্রপি ডার ড্যাটেন জু জুয়ে ভার্জিনগার।

ইংরেজীতে:

এন্ট্রপি কোডারগুলি প্রায়শই অন্যান্য এনকোডারগুলির সাথে মিলিত হয়। পূর্ববর্তী পদক্ষেপগুলি ডেটার এনট্রপি কমাতে পরিবেশন করে।

অর্থাত্ bzip2 এন্ট্রপি কোডিং প্রয়োগ করার আগে একটি মুভ-টু-ফ্রন্ট-ট্রান্সফর্মের পরে বারো-হুইলারের-ট্রান্সফর্ম ব্যবহার করে (এই ক্ষেত্রে হাফম্যান কোডিং)।

এই পদক্ষেপগুলি কি বার্তাটির এনট্রপি সত্যিই হ্রাস করে, যা ম্যাসেজটিতে থাকা তথ্যের পরিমাণ হ্রাস করে? এটি আমার কাছে বিরোধী বলে মনে হচ্ছে, যেহেতু এর অর্থ হ'ল সংকোচনের সময় তথ্য নষ্ট হয়ে গেছে, ক্ষয়বিহীন পচন রোধ করে। অথবা তারা কেবল এনট্রপি কোডিং অ্যালগরিদমের দক্ষতা উন্নত করার জন্য বার্তাটি রূপান্তর করে? বা এন্ট্রপি ম্যাসেজের তথ্যের পরিমাণের সাথে সরাসরি মিলছে না?


1
যদিও এনট্রপিটি অনুমান করার একটি উপায় হতে পারে ।
পাইপ

উত্তর:


39

এন্ট্রপির অনেকগুলি নৈমিত্তিক বিবরণগুলি এইভাবে বিভ্রান্ত করছে কারণ এন্ট্রপিটি কখনও কখনও উপস্থাপিত হিসাবে পরিস্কার পরিচ্ছন্ন পরিমাপ নয়। বিশেষত, শ্যানন এনট্রপির স্ট্যান্ডার্ড সংজ্ঞাটি অনুধাবন করে যে এটি কেবল তখনই প্রযোজ্য যখন উইকিপিডিয়া বলেছে, "স্বাধীন ইভেন্টের কারণে তথ্য যুক্ত হয়" "

অন্য কথায়, স্বাধীন ইভেন্টগুলি অবশ্যই পরিসংখ্যানগতভাবে স্বতন্ত্র হতে হবে । যদি তা না হয়, তবে আপনাকে এমন ডেটার একটি প্রতিনিধিত্ব সন্ধান করতে হবে যা ইভেন্টগুলিকে এমনভাবে সংজ্ঞায়িত করে যা তাদের সত্যিকার অর্থে স্বাধীন করে তোলে। অন্যথায়, আপনি এন্ট্রপিকে অত্যধিক মূল্যায়ন করবেন।

এটিকে অন্য কোনও উপায়ে বলতে গেলে শ্যানন এন্ট্রপি কেবলমাত্র সম্ভাব্যতা বিতরণের ক্ষেত্রেই প্রযোজ্য, সাধারণভাবে এলোমেলো প্রক্রিয়াগুলিতে নয়। শ্যানন এনট্রপির অনুমানগুলির সাথে খাপ খায় না এমন প্রক্রিয়াগুলির দৃ concrete় উদাহরণগুলির জন্য, বিবেচনা করুন ...

মার্কভ প্রক্রিয়া

একটি মার্কভ প্রক্রিয়া একাধিক ইভেন্টের উত্পন্ন করে যার মধ্যে সাম্প্রতিকতম ইভেন্টটি কোনও বিতরণ থেকে নমুনা দেওয়া হয় যা এক বা একাধিক আগের ইভেন্টের উপর নির্ভর করে। স্পষ্টতই বিপুল সংখ্যক বাস্তব-জগতের ঘটনাটি মার্কোভ প্রক্রিয়া হিসাবে আলাদা, স্বতন্ত্র সম্ভাব্যতা বিতরণের চেয়ে আরও ভাল মডেলিং। উদাহরণস্বরূপ: আপনি এখনই পাঠ্যটি পড়ছেন!

একটি মার্কভ প্রক্রিয়াটির নির্লজ্জভাবে গণনা করা শ্যানন এনট্রপি হার সর্বদা প্রক্রিয়াটির প্রকৃত এনট্রপি হারের চেয়ে বড় বা সমান হবে । প্রক্রিয়াটির সত্যিকারের এনট্রপি পেতে, আপনাকে ইভেন্টগুলির মধ্যে পরিসংখ্যান নির্ভরতা বিবেচনায় নেওয়া উচিত। সাধারণ ক্ষেত্রে, এর সূত্রটি দেখতে এইরকম :

H(S)=ipij pi(j)logpi(j)

এটি এর মতো প্রতিনিধিত্ব করতে পারে :

H(Y)=ijμiPijlogPij

আবার উইকিপিডিয়া উদ্ধৃত করে, এখানে " হ'ল চেইনের অ্যাসিম্পটোটিক বিতরণ " - অর্থাৎ, প্রদত্ত ঘটনাটি দীর্ঘ দিগন্তের মধ্যে সংঘটিত হওয়ার সামগ্রিক সম্ভাবনা।μi

এটি বলার সমস্ত জটিল উপায় যে আপনি কোনও প্রদত্ত ইভেন্টের সামগ্রিক সম্ভাবনা গণনা করতে পারলেও, ইভেন্টের নির্দিষ্ট ক্রমগুলি অন্যদের চেয়ে একটি মার্কভ প্রক্রিয়া দ্বারা উত্পন্ন হওয়ার সম্ভাবনা বেশি। সুতরাং উদাহরণস্বরূপ, ইংরেজি শব্দের নিম্নলিখিত তিনটি স্ট্রিং খুব কমই সম্ভবত:

  • তারা ছুটে গেল গাছে
  • গাছটি তাদের কাছে ছুটে গেল
  • তারা দৌড়ে যেতে গাছ

তবে শ্যানন এনট্রপি তিনটি স্ট্রিংকে সমান সম্ভাবনা মতো মূল্যায়ন করবে। মার্কভ প্রক্রিয়া এনট্রপি এই পার্থক্যটিকে বিবেচনায় নিয়ে আসে এবং ফলস্বরূপ, এটি প্রক্রিয়াটির জন্য একটি কম এনট্রপি রেট বরাদ্দ করে।

এন্ট্রপি হারগুলি মডেল নির্ভর

আপনি যদি জুম আউট করেন, তবে এখানে বড় ছবিটি: অজানা উত্স থেকে ইভেন্টের প্রদত্ত ক্রমের এনট্রপি হারটি মডেল নির্ভর। আপনি যে প্রক্রিয়াটি তৈরি করেছেন তা কীভাবে মডেল করবেন তার উপর নির্ভর করে আপনি ইভেন্টের একটি নির্দিষ্ট সিরিজের জন্য আলাদা এনট্রপি রেট বরাদ্দ করবেন।

এবং খুব ঘন ঘন, আপনার প্রক্রিয়াটির মডেলটি বেশ সঠিক হতে যাচ্ছে না। এটি সমস্যার সমাধান করা সহজ বা সহজ নয়। আসলে, সাধারণভাবে, ঘটনাগুলির পর্যাপ্ত দীর্ঘ এবং জটিল ক্রমের জন্য সত্যিকারের এনট্রপি রেট নির্ধারণ করা অসম্ভব যদি আপনি না জানেন যে প্রকৃত অন্তর্নিহিত প্রক্রিয়াটি কী। এটি অ্যালগরিদমিক তথ্য তত্ত্বের একটি কেন্দ্রীয় ফলাফল ।

এটি অনুশীলনের অর্থ যা হ'ল ঘটনাগুলির ক্রমগুলির একটি অজানা উত্স দেওয়া হয়েছে, বিভিন্ন মডেল বিভিন্ন এনট্রপি অর্জন করবে এবং দীর্ঘকাল কোনটি সঠিক তা জানা অসম্ভব - যদিও সর্বনিম্ন এনট্রপিকে নির্ধারিত একটি সম্ভবত সেরা।


2
আপনাকে অনেক ধন্যবাদ! এটি আমার যুক্তিতে ভুলটি কী ছিল তা পুরোপুরি ব্যাখ্যা করে।
রবার্ট

আপনার উত্তরটি আরও ভাল হতে পারে যদি এতে মডেলিং প্রক্রিয়াগুলির উদাহরণ হিসাবে ডেটা, চিত্র এবং অডিও ডিকম্প্রেসার থাকে। উদাহরণস্বরূপ, এলজেড ডাটা সংক্ষেপণ, মডেল একটি মেশিন (ডিকোডার) ধরে নেয় যা ইনপুট কমান্ড হিসাবে গ্রহণ করে (ডি, এল): "বর্তমান আউটপুট অবস্থানের তুলনায় অফসেট ডি থেকে এল স্বতন্ত্র চিহ্নগুলিতে আউটপুট অনুলিপি করুন", বা (সি): " প্রতীক সি বর্তমান আউটপুট অবস্থানে কপি করুন। এলজেড এনকোডারটি তার ইনপুট প্রতীক স্ট্রিমটি ডিকোডারের কমান্ড ল্যাঙ্গুয়েজে রূপান্তর করে এবং কমান্ড প্রতীক স্ট্রিমের এনকোডড স্ট্রিমের চেয়ে আলাদা এনট্রপি (এবং দৈর্ঘ্য) থাকে। অন্যান্য ধরণের সংক্ষেপে বিভিন্ন মেশিন রয়েছে।
পিপিরি

@ পাইপেরি যা সহায়ক বলে মনে করে — যদিও আমি সেগুলির কোনও বিবরণ জানি না। (আমি একটি মেশিন লার্নিং
স্ট্যান্ডপয়েন্ট

@ সেন্ডারেল মানে আমি কিছু কংক্রিট প্রক্রিয়া উদাহরণ সহ "এন্ট্রপি হারগুলি মডেল-নির্ভর" অধ্যায়টি প্রসারিত করতে চাইছি। আপনি এমন একটি প্রক্রিয়া সম্পর্কে কথা বলুন যা ইভেন্ট উত্পন্ন করে এবং ডেটা, চিত্র, ভিডিও, অডিও ইত্যাদি সংক্ষেপকারীদের প্রক্রিয়াজাতকরণ উপাদানগুলিকে এ জাতীয় প্রক্রিয়া হিসাবে দেখা যায়। একটি খাঁটি এনট্রপি কোডার একটি ডেটা সংক্ষেপণ পাইপলাইনের চূড়ান্ত পদক্ষেপ। পাইপলাইনগুলির কোনও পদক্ষেপই সত্যই "এনট্রপি হ্রাস" করে না। পরিবর্তে, তাদের প্রত্যেকে এমন কোনও মেশিনের জন্য নির্দেশিকা তৈরি করে যা মূল প্রতীক প্রবাহকে পুনরুত্পাদন করতে পারে। এবং প্রতিটি নির্দেশের স্ট্রিমের আলাদা ইন্ট্রপি এবং প্রায়শই একটি পৃথক (অর্থাত্ সংক্ষিপ্ত) দৈর্ঘ্য থাকে।
পাইপেরি

12

না, যদি অ্যালগরিদম ক্ষয়ক্ষতি হয় তবে সংক্ষেপণ ক্রমের কোনও পদক্ষেপই তার এনট্রপি হ্রাস করতে পারে না - অন্যথায় এটি সংক্রমিত / ডিকোডড হতে সক্ষম হবে না। তবে অতিরিক্ত এন্ট্রপিটি 'আউট-অফ-ব্যান্ড' তথ্যগুলিতে সঞ্চিত থাকতে পারে - যেমন-তালিকাকে মুভ-টু-ফ্রন্ট রূপান্তর ডিকোড করার জন্য বজায় রাখা দরকার।


এনট্রপি কোডিংয়ের আগে এনট্রপি কোডারকে এনট্রপির আরও কাছাকাছি আসার অনুমতি দেওয়ার জন্য কী সংক্ষেপণ অ্যালগরিদমগুলিতে ব্যবহৃত অতিরিক্ত পদক্ষেপগুলি ব্যবহৃত হয়? একটি ইন্ট্রপি কোডার যখন একটি স্বেচ্ছাসেবক বার্তার জন্য প্রয়োগ করা হয় তা নিজেরাই এনট্রপির কাছাকাছি আসে না?
রবার্ট

প্রকৃতপক্ষে, এটি (ভাল, "বন্ধ" এর সঠিক অর্থের উপর নির্ভর করে) না doesn't
গ্রিমি

অতিরিক্ত পদক্ষেপগুলি এনট্রপি এনকোডারটিকে মূল বার্তার এনট্রপি বজায় রাখার জন্য অতিরিক্ত অতিরিক্ত তথ্য হ্রাস করার সময় এটির নিজের থেকে প্রয়োগ করার চেয়ে আরও কার্যকরভাবে হ্রাস করে। আপনি প্রাক-প্রক্রিয়াজাতকরণ প্রয়োগ করুন বা না করুন, এন্ট্রপি সংরক্ষণ করা হবে তবে সংক্ষেপণ কম কার্যকর হবে (আপনি কম দক্ষ এনকোডিং দিয়ে শেষ করতে পারেন)।
লুক শোয়ার্জকফফ

না, মুভ-টু-ফ্রন্ট ট্রান্সফর্ম কোনও পৃথক তালিকা আউটপুট দেয় না যা অবশ্যই ডিকোডারে স্থানান্তরিত করতে হবে। প্রাথমিক তালিকাটি না বুঝলে।
ব্যবহারকারী 253751

আঃ, আপনি ঠিক বলেছেন, এটি সর্বোত্তম উদাহরণ ছিল না :)
লূক শোয়ার্জকফ্ফ

6

তারা মূল বার্তার কাঠামোর অন্তর্নিহিত আপাত এনট্রপি হ্রাস করে । বা অন্য কথায় তারা সংক্ষেপণের পরবর্তী পর্যায়ে থাকা শক্তির ব্যবহার করার জন্য বার্তাটি টিউন করে।

একটি সাধারণ উদাহরণটি xML এর শেষ ট্যাগগুলিতে একটি বিশেষ প্রতীক সহ নামটি প্রতিস্থাপন করা হবে। আপনি সেখান থেকে মূল এক্সএমএলটি পুরোপুরি পুনরায় তৈরি করতে পারেন তবে কম্প্রেসারকে সেই জায়গায় পুরো নামটি আর অন্তর্ভুক্ত করতে হবে না।

আরও বাস্তব-উদাহরণ উদাহরণ হ'ল পিএনজি সংক্ষেপণ। এটি এনট্রপি সংকোচকারী হ'ল ডিফল্ট, যা লেম্পেল-জিফ এবং হাফম্যানের সংমিশ্রণ। এর অর্থ এটি প্রায়শই পুনরাবৃত্তি করে এমন মান এবং নিদর্শনগুলির সাথে সেরা কাজ করে। বেশিরভাগ সংলগ্ন পিক্সেল একই বর্ণের হয়ে থাকে। সুতরাং প্রতিটি সারিতে একটি ফিল্টার বরাদ্দ করা হয়েছে যা মূল পিক্সেল মানকে একটি ডিফারেনশিয়াল এনকোডিংয়ে রূপান্তর করে। এইভাবে ডিফল্ট দ্বারা এনকোড হওয়া মানগুলি বেশিরভাগ ক্ষেত্রে 0 এর কাছাকাছি হয় the


এর অর্থ কী আপাত এনট্রপি কোনও বার্তার আসল তথ্য সামগ্রী থেকে আলাদা? এটি কীভাবে বার্তার আসল এন্ট্রপির সাথে সম্পর্কিত?
রবার্ট

"আপাত এনট্রপি" দিয়ে আমি এনট্রপি এনকোডকে কমপ্রেস করতে পারে এমন এনট্রপিটি বোঝায়। বিভিন্ন এনকোডারটিতে তারা আলাদা আলাদা নিদর্শন দেখতে পাবে। হফম্যান সবচেয়ে ভাল কাজ করে যখন একই কয়েকটি চিহ্নগুলি প্রায়শই প্রায়শই ব্যবহার করা হয়, খণ্ডগুলি পুনরাবৃত্তি করা হলে লেম্পেল-জিফ সবচেয়ে ভাল কাজ করে
র‌্যাচেট ফ্রিক

তবে লেম্পেল-জিভ অ্যালগরিদমগুলি এনট্রপি কোডিং অ্যালগরিদম নয়, তাই না? আমি যা বুঝতে পারি না তা হ'ল এন্ট্রপি কোডারগুলির আগে যেমন এলজেডএমএ-এর আগে এগুলি কেন ব্যবহৃত হয়, যখন নিজেরাই এনট্রপি কোডার ইতিমধ্যে তার ন্যূনতম পর্যন্ত বার্তাটি সংকুচিত করতে পারে।
রবার্ট

1
@ কুত্স্কেম কি এর অর্থ এনট্রপি কোনও বার্তার তথ্য সামগ্রীর নিখুঁত পরিমাপ নয় তবে এটি প্রতীক হিসাবে সংজ্ঞায়িত (যেমন একটি একক অক্ষরকে একটি প্রতীক হিসাবে বিবেচনা করা হয়? 1 বিটকে প্রতীক হিসাবে বিবেচনা করা হচ্ছে) এর সাথে সম্পর্কিত? আমি মনে করি এটি ব্যাখ্যা করবে যেখানে আমার অনুমানগুলি ভুল ছিল।
রবার্ট

1
@ আরবার্ট ... যদিও একটি ট্রেডঅফ রয়েছে, যা লুকের উত্তরে "আউট অফ-ব্যান্ড" তথ্য উল্লেখ করেছে, যা সাধারণত সেই পদক্ষেপগুলি দ্বারা যুক্ত করা হয় (এনকোডড তথ্যগুলি ডিকোড করতে সক্ষম টেবিলগুলি অনুসন্ধান করে)। সুতরাং পুরো বিষয়বস্তুটিকে একটি প্রতীক হিসাবে সংজ্ঞায়িত করা এবং এটি 0 হিসাবে এনকোড করার কোনও অর্থ নেই কারণ কোথাও কোথাও তথ্য সংরক্ষণ করতে হবে যা এই 0 টি এনকোড।
কুত্স্কেম

6

এন্ট্রপি কোডারগুলি বার্তাটি উপস্থাপনের জন্য প্রয়োজনীয় ন্যূনতম সংখ্যায় সংকোচনে আসে না। আমি জানি এটি ভাবা লোভনীয়, তবে তারা যা করে তা তা নয়। তারা যাদু নয় এবং তারা তা অর্জন করতে পারে না।

পরিবর্তে, তারা কিছু কম যাদুকর কিছু করেন - তবে এখনও দরকারী। মনে করুন মুহুর্তের জন্য আমরা জানলাম যে বার্তার প্রতিটি চরিত্র কিছু বিতরণ থেকে স্বতন্ত্রভাবে নির্বাচিত হয়েছিল। তারপরে একটি নিখুঁত সংকোচনের অ্যালগরিদম তৈরি করা সম্ভব হবে যা মেসেজগুলি অনুকূলভাবে সংকুচিত করে। এই অ্যালগরিদমগুলিকে এন্ট্রপি এনকোডার বলে।

এখন আসল বার্তাগুলিতে সাধারণত সেই স্বাধীনতার সম্পত্তি থাকে না। উদাহরণস্বরূপ, আপনি যদি প্রশ্নটি দেখেন তবে সম্ভবত পরবর্তী অক্ষরটি একটি মার্কিন যুক্তরাষ্ট্রে রয়েছে। সত্যিকারের বার্তায় একটি এনট্রোপি এনকোডার আলগোরিদিম প্রয়োগ করা এখনও সম্ভব, যেখানে প্রতিটি অক্ষর বাকী অংশে স্বাধীনভাবে নির্বাচিত হয় না। অ্যালগরিদমটি এখনও ক্ষতিহীন থাকবে, এটি এখনও সংক্ষেপণের জন্য ব্যবহার করা যেতে পারে এবং বাস্তবে এটি বার্তার দৈর্ঘ্য প্রায়শই ছোট করে দেবে। তবে এটি এটি ন্যূনতম সম্ভাব্য দৈর্ঘ্যে সংক্ষিপ্ত করে না। এটি এমন কোনও বার্তাকে সংকুচিত করে না যার দৈর্ঘ্য বার্তাটির এনট্রপির সমান; এটি তার চেয়ে কম সংকুচিত করে।

এন্ট্রপি এনকোডারগুলির এই সম্পত্তিটি আপনি একবার বুঝতে পারলে প্যারাডক্সটি বাষ্পীভূত হয়।

সাধারণভাবে, কোনও ক্ষতিহীন পদক্ষেপ কখনই বার্তার এনট্রপি হ্রাস করে না। তবে এটি বার্তাটিকে এমন একটি ফর্মের মধ্যে ফেলতে পারে যেখানে কিছু অন্যান্য সংক্ষেপণ অ্যালগরিদম আরও কার্যকর, তাই এটি ব্যবহারিকভাবে (গড়) এখনও কার্যকর হতে পারে।


2

"এন্ট্রপি" শব্দটি প্রায়শই কিছুটা looseিলে usedালাভাবে ব্যবহৃত হলে দুটি ভিন্ন জিনিস বোঝায়:

  • কোনও বার্তা বা সিস্টেমে "তথ্যের মোট পরিমাণ"

  • তথ্য "ঘনত্ব", বা তথ্যটি কীভাবে দৃ pack়ভাবে প্যাক করা হয়েছে

Https://en.wikedia.org/wiki/Entropy_(inifications_theory) এর জন্য উইকিপিডিয়ায় প্রবেশের ওপির উদ্ধৃতিটি প্রথমটিকে বোঝায়:

Shannon's entropy measures the information contained in a message

তবে (অন্তত আমি যখন এটি লিখছি) একই নিবন্ধটি দিয়ে শুরু:

Information entropy is the average rate at which information is produced by a stochastic source of data.

সুতরাং একটি একটি পরিমাণ এবং একটি হ'ল হার (দূরত্ব বনাম গতির সাথে সমান)। এগুলিকে কখনও কখনও "বিস্তৃত" এবং "নিবিড়" বৈশিষ্ট্য বলা হয় ( https://en.wikedia.org/wiki/Intensive_and_extensive_properties#Extensive_properties দেখুন )।

পার্থক্যের একটি সর্বোত্তম উদাহরণ হ'ল পল রেভেরের বিখ্যাত ফানুস সংকেত: "এক যদি ভূমি দ্বারা, এবং দুটি যদি সমুদ্র দ্বারা"। মোট তথ্যগুলির 1 বিট (যদি "আমি এখনও উত্তর চার্চে পৌঁছে নাছি তবে কিছুই" উপেক্ষা করে নিই)। পল যদি বিল্ডিংয়ের প্রতিটি উইন্ডোতে আর একটি ফানুস যোগ করেন, তবে তা '' 'রিলান্ড্যান্ট' '' হবে: আর কোনও তথ্য নেই, সুতরাং একই "মোট" বা "বিস্তৃত" এনট্রপি; তবে আরও অনেক বার্তার দৈর্ঘ্য, এতটা "নিবিড়" এনট্রপি।

যদি তিনি সেভাবে শুরু করেন তবে কেবলমাত্র একটি লণ্ঠনের সেট ব্যবহার করতে পারেন, এটি ওপির প্রশ্নের মতো "লসলেস কম্প্রেশন"। "বিস্তৃত" এনট্রপি একই, তবে "নিবিড়" এন্ট্রপি "আলাদা: কারণ দ্বিতীয় উইন্ডোতে যে লণ্ঠনের সংখ্যা আপনি প্রথমটিতে দেখেছেন তার সাথে খুব বেশি সম্পর্কযুক্ত, অপ্রয়োজনীয় বার্তাটি আরও অনুমানযোগ্য, বা কম এলোমেলো, তাই অনেক কম নিবিড় এনট্রপি রয়েছে।

আরও দুটি গুরুত্বপূর্ণ বিষয় মনে রাখতে হবে:

  • প্রথমত, আমরা সাধারণত কোনও অর্থে কোনও সিস্টেমের "সত্য" এনট্রপিটি জানি না। "3 লণ্ঠন" আলাদা বার্তা হবে কি না, বা বিভিন্ন উইন্ডোতে সিগন্যালগুলি অপ্রয়োজনীয় কিনা তা একটি নিষ্পাপ বাইস্ট্যান্ডার জানেন না। যদি পল তার যাত্রাকে অভ্যাস করে তোলে, আমরা উইন্ডোজ সবসময় একে অপরের সাথে মেলে কিনা তা গণনা করতে এবং দেখতে পারি। তবে সম্ভবত দুর্লভ (এবং সম্ভবত গুরুত্বপূর্ণ!) ব্যতিক্রমগুলি দেখার জন্য আমরা কেবলমাত্র যথেষ্ট সময় দেখিনি।

  • দ্বিতীয়ত, আপনি কীভাবে পরিমাপ করবেন তা গুরুত্বপূর্ণ। প্রতিটি পাঠ্য অক্ষরের দ্বারা কতটা যোগাযোগ করা হয় তা অনুমানের চেষ্টা করার কথা বিবেচনা করুন (এটি একটি হার, সুতরাং "নিবিড়" এনট্রপি, যাকে মাঝে মাঝে "আপেক্ষিক এনট্রপি "ও বলা হয়):

    • যদি আপনি কেবল খেয়াল করেন যে লোকেরা প্রায় 8-বিট ইউনিটগুলিতে পাঠ্য পাঠায়, আপনার প্রথম "অনুমান" চিঠি প্রতি 8 বিট হতে পারে।
    • যদি আপনি আলাদা আলাদা অক্ষরের সংখ্যা গণনা করেন তবে আপনি লগ 2 (26), বা চিঠি প্রতি 4.7 বিট (আপনি যদি স্পেস, কেস, ইত্যাদি বিবেচনা করেন তবে খানিকটা বেশি) অনুমান করতে পারবেন।
    • যদি আপনি বিবেচনা করেন যে "ই" "জেড" এর চেয়ে "পরের চিঠি" এর জন্য আরও ভাল বাজি, আপনি চিঠি ফ্রিকোয়েন্সিগুলি পরিমাপ করবেন এবং প্রায় 4.14 পাবেন (দেখুন http://people.seas.harvard.edu/~ones /cscie129/ কাগজপত্র / স্ট্যানফোর্ড_ইনফো_ পেপার / এন্ট্রপি_অফ_এঞ্জলিশ_9 এইচটিএম )।
    • আপনি যদি লেটার-জোড়া গণনা করেন তবে আপনি "qu", "th", ইত্যাদির মতো প্যাটার্নগুলি বেছে নেবেন এবং প্রায় 3.56 পেয়ে যাবেন।
    • যদি আপনি প্রায় 5 টি অক্ষরের সিক্যুয়েন্স গণনা করেন তবে আপনি এখনও কম মান পাবেন এবং একটি বোনাস হিসাবে আপনি পাঠ্যটি কোন মানব ভাষায় রয়েছে তা নির্ভরযোগ্যভাবে আলাদা করতে পারবেন)।
    • আপনি যদি "প্রিন্টড ইংলিশের পরিসংখ্যান কাঠামোর লম্বা-রেঞ্জের সীমাবদ্ধতা" (আমেরিকান জার্নাল অফ সাইকোলজির 68 (1955)) তে এনজি বার্টন এবং জিসিআর লিকলাইডারের মতো কঠোর এবং চালাক হন তবে আপনি 10 এর ক্রমগুলি পেতে পারেন, এক সারি 0000 টি অক্ষর, এবং আরও একটি এনট্রপি মান সন্ধান করুন।

তবে অবশ্যই, বার্তায় অনেকগুলি নিদর্শন থাকতে পারে যা এ জাতীয় এন-গ্রাম পদ্ধতি দ্বারা মডেল করা হয় না, সুতরাং "সত্য" এনট্রপিটি এখনও কম।

আপনি যদি টোকেনগুলির পুরোপুরি এলোমেলো জিপফিয়ান বিতরণ সহ একটি তাত্ত্বিক অসীম উত্সকে মডেল করেন তবে আপনি এটির যে বিস্তৃত এবং নিবিড় এনট্রোপিকে গণনা করতে পারেন এটি কেবল সম্ভাব্য স্বতন্ত্র টোকেনের সংখ্যার উপর নির্ভর করে। এই সংখ্যাটি বাড়ার সাথে সাথে প্রতিটি ধরণের এনট্রপির মতো দেখতে গ্রাফগুলি [ http://www.derose.net/steve/writings/dissertation/Diss.0.html] এ রয়েছে । দু'জন বেশ আলাদাভাবে আচরণ করে:

আশা করি যা সহায়তা করে বা অন্তত আকর্ষণীয় ...


1

আমি সন্দেহ করি জার্মান উইকিপিডিয়ায় শব্দটি ভুল হয়েছে। সংকোচকারীরা এন্ট্রপি বাড়িয়ে তোলে। এটি বলতে গেলে, সামগ্রিক এনট্রপি নয়, বিট প্রতি এনট্রপি : তথ্য ঘনত্ব। যেমন কিছু রান-দৈর্ঘ্যের এনকোডিং এবং অভিধান স্কিম ডেটা ঘনীভূত করতে প্রয়োগ করা হয়। এখন একই তথ্য কম বিট মধ্যে প্যাক করা হয়, তাই প্রতিটি বিট আরও তথ্য বহন করে। পরবর্তী হাফম্যান কোডিং এর সাথে আরও কিছুটা ঘটে; এটি সংকোচনের মাত্র একটি স্তর।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.