আমি ডেটা সংক্ষেপণের অ্যালগরিদম এবং ডেটা সংক্ষেপণের জন্য তাত্ত্বিক সীমা সম্পর্কে পড়ছিলাম। সম্প্রতি আমি "কম্বিনেটরিয়াল এন্ট্রপি এনকোডিং" নামক একটি সংকোচনের পদ্ধতির মুখোমুখি হয়েছি, এই পদ্ধতির মূল ধারণাটি ফাইলটিতে উপস্থাপিত অক্ষর, তাদের ফ্রিকোয়েন্সি এবং এই অক্ষরের অনুক্রমের সূচি ফাইল দ্বারা প্রতিনিধিত্ব করা হিসাবে ফাইলটিকে এনকোড করা।
এই নথিগুলি এই পদ্ধতিটি ব্যাখ্যা করতে সহায়তা করতে পারে:
https://arxiv.org/pdf/1703.08127
http://www-video.eecs.berkeley.edu/papers/vdai/dcc2003.pdf
https://www.thinkmind.org/download.php?articleid=ctrq_2014_2_10_70019
তবে, প্রথম নথিতে আমি পড়েছি যে এই পদ্ধতিটি ব্যবহার করে তারা শ্যানন সীমা থেকে কিছুটা কমপক্ষে সংক্ষিপ্ত করতে পারে (অক্ষরগুলির ফ্রিকোয়েন্সি এবং মেটা সংরক্ষণের জন্য প্রয়োজনীয় স্থান সংরক্ষণ করার জন্য প্রয়োজনীয় স্থানটি তারা বিবেচনা করে না ফাইলের ডেটা)। আমি এটি সম্পর্কে ভেবেছিলাম এবং আমি খুঁজে পেয়েছি যে এই পদ্ধতিটি খুব ছোট ফাইলগুলির জন্য খুব কার্যকর হবে না তবে অন্যদিকে এটি বড় ফাইলগুলির সাথে ভালভাবে কাজ করতে পারে। প্রকৃতপক্ষে আমি এই অ্যালগরিদম বা শ্যানন সীমাটি খুব ভালভাবে বুঝতে পারি না, আমি কেবল জানি এটি প্রতিটি চরিত্রের সম্ভাবনার যোগফলের পারস্পরিক দ্বারা গুণিত সম্ভাবনার সমষ্টি ।
সুতরাং আমার কিছু প্রশ্ন আছে:
এই সংক্ষেপণ পদ্ধতিটি কী শানন সীমা চেয়ে ছোট ফাইলগুলিকে সত্যিই সংকুচিত করে?
শ্যানন সীমা (এই প্রশ্নটির উত্তর যতটা আমি জানি না) এর চেয়ে কম সংকোচনকারী কোনও সংকোচনের অ্যালগরিদম কি আছে?
শ্যানন সীমাটির চেয়ে কম সংখ্যক ফাইলগুলিকে সংকুচিত করে এমন একটি সংক্ষেপণ পদ্ধতি কি উপস্থিত থাকতে পারে?
যদি সম্মিলিত এনকোডিংটি সত্যই শ্যাননের সীমা ছাড়িয়ে ফাইলগুলিকে সংকুচিত করে, আমরা যে ফাইলটি চাই তার প্রয়োজনীয় ফাইলের না পৌঁছানো পর্যন্ত বার বার ফাইলটি সংকোচন করা সম্ভব নয়?