শ্যানন ডেটা কম্প্রেশন সীমা চেয়ে ছোট আকারে ডেটা সংকুচিত করা যায়?

17

আমি ডেটা সংক্ষেপণের অ্যালগরিদম এবং ডেটা সংক্ষেপণের জন্য তাত্ত্বিক সীমা সম্পর্কে পড়ছিলাম। সম্প্রতি আমি "কম্বিনেটরিয়াল এন্ট্রপি এনকোডিং" নামক একটি সংকোচনের পদ্ধতির মুখোমুখি হয়েছি, এই পদ্ধতির মূল ধারণাটি ফাইলটিতে উপস্থাপিত অক্ষর, তাদের ফ্রিকোয়েন্সি এবং এই অক্ষরের অনুক্রমের সূচি ফাইল দ্বারা প্রতিনিধিত্ব করা হিসাবে ফাইলটিকে এনকোড করা।

এই নথিগুলি এই পদ্ধতিটি ব্যাখ্যা করতে সহায়তা করতে পারে:

https://arxiv.org/pdf/1703.08127

http://www-video.eecs.berkeley.edu/papers/vdai/dcc2003.pdf

https://www.thinkmind.org/download.php?articleid=ctrq_2014_2_10_70019

তবে, প্রথম নথিতে আমি পড়েছি যে এই পদ্ধতিটি ব্যবহার করে তারা শ্যানন সীমা থেকে কিছুটা কমপক্ষে সংক্ষিপ্ত করতে পারে (অক্ষরগুলির ফ্রিকোয়েন্সি এবং মেটা সংরক্ষণের জন্য প্রয়োজনীয় স্থান সংরক্ষণ করার জন্য প্রয়োজনীয় স্থানটি তারা বিবেচনা করে না ফাইলের ডেটা)। আমি এটি সম্পর্কে ভেবেছিলাম এবং আমি খুঁজে পেয়েছি যে এই পদ্ধতিটি খুব ছোট ফাইলগুলির জন্য খুব কার্যকর হবে না তবে অন্যদিকে এটি বড় ফাইলগুলির সাথে ভালভাবে কাজ করতে পারে। প্রকৃতপক্ষে আমি এই অ্যালগরিদম বা শ্যানন সীমাটি খুব ভালভাবে বুঝতে পারি না, আমি কেবল জানি এটি প্রতিটি চরিত্রের সম্ভাবনার যোগফলের পারস্পরিক দ্বারা গুণিত সম্ভাবনার সমষ্টি । $log_2$

সুতরাং আমার কিছু প্রশ্ন আছে:

এই সংক্ষেপণ পদ্ধতিটি কী শানন সীমা চেয়ে ছোট ফাইলগুলিকে সত্যিই সংকুচিত করে?
শ্যানন সীমা (এই প্রশ্নটির উত্তর যতটা আমি জানি না) এর চেয়ে কম সংকোচনকারী কোনও সংকোচনের অ্যালগরিদম কি আছে?
শ্যানন সীমাটির চেয়ে কম সংখ্যক ফাইলগুলিকে সংকুচিত করে এমন একটি সংক্ষেপণ পদ্ধতি কি উপস্থিত থাকতে পারে?
যদি সম্মিলিত এনকোডিংটি সত্যই শ্যাননের সীমা ছাড়িয়ে ফাইলগুলিকে সংকুচিত করে, আমরা যে ফাইলটি চাই তার প্রয়োজনীয় ফাইলের না পৌঁছানো পর্যন্ত বার বার ফাইলটি সংকোচন করা সম্ভব নয়?

information-theory data-compression

— মেরামতের
সূত্র

26

শ্যানন প্রমাণ করেছে যে আপনি শ্যানন সীমার নীচে সংক্ষেপ করতে পারবেন না।

— যুবাল ফিল্মাস

11

ক্ষতিকারক সংকোচনের সাথে আপনি শ্যানন সীমার নীচে যেতে পারেন । শ্যানন কেবল দেখিয়েছে যে আপনি তথ্য হারানো ছাড়া সীমাবদ্ধতার নীচে সংক্ষেপ করতে পারবেন না । @YuvalFilmus। কোনও আরজিবি চিত্রের মতো, আপনি আর, জি, বি উপাদানগুলির নিম্ন-অর্ডার বিটগুলি ফেলে দিতে পারেন।

— স্মি

প্রাসঙ্গিক: cs.stackexchange.com/a/44643/26146

— Quuxplusone

6

@ এসএমসি এটি সংক্ষেপণ তত্ত্ব সম্পর্কে যে কোনও আলোচনায় মূলত অপ্রাসঙ্গিক। স্পষ্টতই আমি প্রতিটি বিট ফেলে দিতে পারি এবং এটিকে সংক্ষেপণ বলতে পারি।

— পাইপ

1

ধরা যাক আমার কাছে একটি চিত্রের মতো একটি বড় ফাইল রয়েছে। এখন মডেলটিতে আমি পুরো চিত্রটিকে "1" হাতে মানচিত্র করি..আমি শ্যানন সীমাটির নীচে সংক্ষেপিত হয়েছি কারণ পুরো চিত্রটি "1" তে সংক্ষেপিত হয়েছে ......

— পিটার বি

34

প্রকৃতপক্ষে আমি এই অ্যালগরিদম বা শ্যানন সীমাটি খুব ভালভাবে বুঝতে পারি না, আমি কেবল জানি এটি প্রতিটি চরিত্রের সম্ভাবনার সমষ্টিটি সম্ভাবনার পারস্পরিক ক্রমের লগ 2 দ্বারা গুণিত হয়।

এর মধ্যেই ক্রুশ পড়ে আছে। শ্যানন সীমা কোনও পাঠ্যের স্ট্রিংয়ের সর্বজনীন সম্পত্তি নয়। এটি পাঠ্যের একটি স্ট্রিং প্লাস এমন একটি মডেলের সম্পত্তি যা প্রতীকগুলির সম্ভাব্যতা (সম্ভবত প্রসঙ্গ-নির্ভর) সরবরাহ করে। এটি আমাদের জানায় যে মডেলটি সঠিক বলে ধরে নিয়ে সেই মডেলটি কতটা ভালভাবে পাঠ্যকে সংকুচিত করতে পারে ।

আপনি যদি শ্যানন সীমা গণনা করতে একটি মডেল এবং তারপরে সংক্ষেপে আলাদা মডেল ব্যবহার করেন তবে দ্বিতীয় মডেলটি আরও সঠিক হলে আপনি যে শ্যানন সীমাটি গণনা করেছিলেন তা হারাতে পারবেন, তবে এটি সত্যিই প্রাসঙ্গিক নয়।

— orlp
সূত্র

4

একটি ব্যবহারিক উদাহরণ তৈরির জন্য, যদি আপনি জানেন যে আপনার ডেটাতে একটি বারের বার বার এন থাকে, তবে আপনি নির্বিচারে বড় সংকোচনের হার অর্জন করতে পারেন (অর্থাত্ 10 বিলিয়ন 'এ' থেকে একটি টিউপল ('এ', 10000000))

— এন্টি

12

আপনি শ্যানন সীমার নীচে সংকোচন করতে পারবেন তা দেখানো তুচ্ছ সহজ - একটি প্রতারণামূলক সংক্ষেপক নিন যা টোকনে বরাদ্দ করা প্রচলিত ফাইলগুলির একগুচ্ছ থাকে। বলেছে যে ফাইলগুলি টোকেন হিসাবে সংরক্ষণ করা হয়। (স্পষ্টতই, সংক্ষেপকটি অবশ্যই খুব বড়, বা একটি খুব বড় লাইব্রেরিতে আঁকতে হবে))

সংক্ষেপকটি তার লাইব্রেরিতে নেই এমন কোনও ফাইল নিয়ে কাজ করার জন্য সহজাতভাবে কম দক্ষ হবে যদিও এটি অবশ্যই কোনওভাবে একটি সাধারণ সংক্ষেপণ থেকে একটি টোকেনকে আলাদা করতে হবে।

আপনি যা করতে পারবেন না তার মধ্যে এমন একটি সংক্ষেপক রয়েছে যা সমস্ত ফাইলগুলিতে শ্যানন সীমাটিকে হারাতে পারে ।

— লরেন পেচটেল
সূত্র

11

$1/2$ $1/3$ $1/6$ $p$ $log_2(1/p)$

তবে আপনি যদি অন্য কোনও মডেল প্রয়োগ করেন তবে আপনি সম্ভাবনার আর একটি ক্রম পাবেন। "U" অক্ষরটি বরং বিরল, তাই পুরো পাঠ্যের উপর এর সম্ভাব্যতা 3% হতে পারে এবং আপনি একটি আদেশ -0 মার্কভ মডেল ব্যবহার করে এই চিঠিটি নির্ধারণ করার সম্ভাবনা রয়েছে ।

তবে ইংরেজী পাঠ্যগুলিতে, "q" এর পরে সাধারণত "u" আসে, সুতরাং একটি অর্ডার -1 মডেল ব্যবহার করে, আপনি "u" "q" এর পরে যাওয়ার ক্ষেত্রে আরও উচ্চতর সম্ভাবনাটি অর্পণ করতে পারেন, এইভাবে সংক্ষেপণের অনুপাতকে উন্নত করে।

তদুপরি, কিছু মডেলগুলি ইনপুটগুলির চেয়ে কম চিহ্নগুলির আউটপুট দেয়, ফে এলজেড 77 text পাঠ্য পুনরাবৃত্তিকে ব্যাক-রেফারেন্সগুলির সাথে প্রতিস্থাপন করে, সুতরাং "আবাববাব" "আব [২,৮]" এ পরিণত হয়।

কেউ যখন কোনও নির্দিষ্ট মডেল দ্বারা সংকুচিত তথ্যের চেয়ে শ্যাননকে কিছু ডেটার এনট্রপি সম্পর্কে কথা বলেন, তখন তিনি সাধারণত অর্ডার -0 মডেল দ্বারা উত্পাদিত শ্যানন এনট্রপি অর্থাত্ প্রতিটি চিহ্নকে সম্পূর্ণ পাঠ্যের উপর এর সম্ভাব্যতা নির্ধারণ করে। স্পষ্টতই, আপনি ডেটাতে আরও পরিশীলিত মডেল প্রয়োগ করে এই মার্জিনটিকে হারাতে পারেন।

— Bulat
সূত্র

3

পাঠ্যের আর একটি সম্ভাব্য ব্যাখ্যা: প্রদত্ত সংক্ষেপণ অ্যালগরিদম আপনাকে কিছু পাঠ্যের আরও ভাল সংক্ষেপণ এবং অন্যের উপর খারাপ সংকোচনতা দিতে চলেছে। তবে, ব্যবহারকারীরা সাধারণত কিছু ধরণের ফাইল (ইংরেজিতে এইচটিএমএল পৃষ্ঠাগুলি, ৮০৩6 machine মেশিন কোড) অন্যদের চেয়ে বেশি (সত্যিকারের এলোমেলো সংখ্যার টেবিল, পুনরাবৃত্তি হ্রাস করতে নির্বাচিত অর্থহীন শব্দ) সম্পর্কে বেশি যত্নশীল। যে কোনও সংকোচনের স্কিম কিছু অন্যান্য স্ট্রিং সংকোচনের ক্ষেত্রে বেহাল হওয়ার চেয়ে খারাপের সাথে রিয়েল-ওয়ার্ল্ড ডেটা সংকুচিত করার ক্ষেত্রে আরও ভাল হয়ে বাণিজ্য করবে।

— Davislor
সূত্র