লসলেস কম্প্রেশন ডেটার সীমাটি কোনটি? (যদি এমন সীমা থাকে তবে)


14

ইদানীং আমি কম্প্রেশন-সম্পর্কিত অ্যালগোরিদমগুলি নিয়ে কাজ করছি এবং আমি ভাবছিলাম যে হ'ল লম্পট ডেটা সংকোচনের দ্বারা অর্জন করা যায় এমন সেরা সংকোচনের অনুপাত।

এখনও অবধি, এই বিষয়টিতে আমি একমাত্র উত্সটি খুঁজে পেতে পারি উইকিপিডিয়া:

ভিডিও, ডিজিটালাইজড ফিল্ম এবং অডিওর মতো ডিজিটালাইজড ডেটার ক্ষতিহীন সংকোচনে সমস্ত তথ্য সংরক্ষণ করা হয়, তবে ডেটা অভ্যন্তরীণ এনট্রপির কারণে খুব কমই 1: 2 সংক্ষেপণের চেয়ে অনেক ভাল করতে পারে

দুর্ভাগ্যক্রমে, উইকিপিডিয়ায় নিবন্ধটিতে এই দাবিটি সমর্থন করার জন্য কোনও রেফারেন্স বা উদ্ধৃতি নেই contain আমি কোনও ডেটা-সংক্ষেপণের বিশেষজ্ঞ নই, সুতরাং আমি এই বিষয়ে আপনি যে কোনও তথ্য সরবরাহ করতে পারেন বা আমি যদি উইকিপিডিয়া থেকে কোনও নির্ভরযোগ্য উত্সকে দেখিয়ে দিতে পারি তবে আমি তার প্রশংসা করব।


1
আমি নিশ্চিত নই যে এই ধরণের প্রশ্ন জিজ্ঞাসা করার জন্য তাত্ত্বিক কম্পিউটার বিজ্ঞান সেরা সাইট। প্রয়োজনে নিবিড়ভাবে ভোট দিতে বা এই প্রশ্নটি একটি আরও উপযুক্ত সাইটে মাইগ্রেট করতে নির্দ্বিধায়।
অরন

3
এটি আপনি যা খুঁজছেন তা হতে পারে: en.wikedia.org/wiki/Entropy_encoding । মূল শব্দটি এনট্রপি
হিসিয়েন-চিহ চাং 之 之

3
দুর্ভাগ্যক্রমে আরও উপযুক্ত সাইটটি কী হবে তা আমি জানি না। Quantization ত্রুটি এনট্রপি একটি উৎস সম্ভবত বৃহৎ কম্প্রেশন অনুপাত প্রতিরোধ করবে।
পিটার শোর

2
কোন ধরণের ডেটার জন্য আপনার লসলেস ডেটা সংক্ষেপণের প্রয়োজন? চিত্র, সংগীত, স্পিচ, জেনেরিক ডেটা, ...? তবে, উচ্চ স্তরের পরিচিতির জন্য ডেটা-সংক্ষেপণ.com / theory.html দেখুন (এবং পৃষ্ঠাগুলির নীচে থাকা সংস্থানসমূহ)
মারজিও ডি বিয়াসি

2
@ বিভিন্ন চিত্র আরও নির্দিষ্টভাবে, মেডিকেল ইমেজ images আমি এই পৃষ্ঠায় একবার দেখে নেব। ধন্যবাদ।
অরন

উত্তর:


27

আমি নিশ্চিত না যে কেউ এখনও যাদুকরী সংখ্যাটি ঠিক 1: 2 বলে মনে করছেন এবং না উদাহরণস্বরূপ, 1: 1.1 বা 1:20 বলে ব্যাখ্যা করেছেন কিনা।

একটি কারণ হ'ল অনেক সাধারণ ক্ষেত্রে প্রায় অর্ধেক ডিজিটালাইজড ডেটা গোলমাল এবং শব্দ (সংজ্ঞা অনুসারে) সংকুচিত করা যায় না।

আমি খুব সাধারণ পরীক্ষা করেছিলাম:

  • আমি একটি ধূসর কার্ড নিয়েছি । একটি মানুষের চোখের কাছে এটি ধূসর কার্ডবোর্ডের সরল, নিরপেক্ষ অংশের মতো দেখাচ্ছে। বিশেষত, কোনও তথ্য নেই

  • এবং তারপরে আমি একটি সাধারণ স্ক্যানার নিয়েছিলাম - ঠিক এমন ধরণের ডিভাইস যা লোকেরা তাদের ফটো ডিজিটালাইজ করতে ব্যবহার করতে পারে।

  • আমি ধূসর কার্ডটি স্ক্যান করেছি। (প্রকৃতপক্ষে, আমি একটি পোস্টকার্ডের সাথে ধূসর কার্ড একসাথে স্ক্যান করেছি san পোস্টকার্ডটি স্যানিটি-যাচাইয়ের জন্য ছিল যাতে আমি নিশ্চিত করতে পারি যে স্ক্যানার সফ্টওয়্যারটি কোনও অদ্ভুত কিছু না করে, যেমন বৈশিষ্ট্যহীন ধূসর কার্ড দেখলে স্বয়ংক্রিয়ভাবে এর বিপরীতে যুক্ত হয়))

  • আমি ধূসর কার্ডের 1000x1000 পিক্সেলের অংশটি ক্রপ করেছি এবং এটিকে গ্রেস্কেল (প্রতি পিক্সেল 8 বিট) এ রূপান্তর করেছি।

যখন আপনি এখন স্ক্যান করা কালো ও সাদা ছবির একটি বৈশিষ্ট্যহীন অংশ , উদাহরণস্বরূপ, পরিষ্কার আকাশ অধ্যয়ন করেন তখন কী ঘটে যায় তার একটি মোটামুটি ভাল উদাহরণ হওয়া উচিত । নীতিগতভাবে, দেখার মতো কিছু ঠিক নেই should

তবে, আরও বড় মাপের সাহায্যে এটি দেখতে এ রকম দেখাচ্ছে:

30x30 শস্য, 10 গুণক দ্বারা ম্যাগনিটিড

কোনও পরিষ্কারভাবে দৃশ্যমান নিদর্শন নেই তবে এটিতে ধূসর বর্ণের অভিন্ন রঙ নেই। এর বেশিরভাগ অংশ ধূসর কার্ডের অপূর্ণতার কারণে ঘটেছিল তবে আমি ধরে নেব যে এর বেশিরভাগটি কেবল স্ক্যানার দ্বারা উত্পাদিত শব্দ (সেন্সর সেল, অ্যামপ্লিফায়ার, এ / ডি কনভার্টর ইত্যাদি) দ্বারা উত্পাদিত হয়। দেখতে অনেকটা গাউসির আওয়াজের মতো; এখানে হিস্টোগ্রাম ( লোগারিথমিক স্কেল):

বারলেখ

এখন যদি আমরা ধরে নিই যে প্রতিটি পিক্সেলটির ছায়া এই বিতরণটি থেকে নেওয়া হয়েছে তবে আমাদের কতটা এনট্রপি থাকবে? আমার পাইথন স্ক্রিপ্টটি আমাকে বলেছিল যে আমাদের কাছে পিক্সেলটিতে ইন্ট্রপিের 3.3 বিট রয়েছে । এবং যে অনেক শব্দ।

যদি সত্যিই এটি হয়, তবে এটি বোঝায় যে আমরা যে কোনও সংক্ষেপণ অ্যালগরিদম ব্যবহার করি না কেন, 1000x1000 পিক্সেল বিটম্যাপটি সর্বোত্তম ক্ষেত্রে 412500-বাইট ফাইলে সংকুচিত করা হবে। এবং অনুশীলনে কী ঘটে: আমি একটি খুব কাছাকাছি একটি 432018 বাইট পিএনজি ফাইল পেয়েছি।


যদি আমরা কিছুটা অতিরিক্ত-সাধারণীকরণ করি তবে মনে হয় যে আমি এই স্ক্যানারটি দিয়ে কালো এবং সাদা ছবিগুলি স্ক্যান করি না কেন, আমি নিম্নলিখিতগুলির যোগফলটি পেয়ে যাব:

  • "দরকারী" তথ্য (যদি থাকে),
  • প্রায় শব্দ। পিক্সেল 3 বিট।

এখন এমনকি যদি আপনার কম্প্রেশন অ্যালগরিদম দরকারী তথ্যকে << 1 বিট প্রতি পিক্সেল মধ্যে পাতিত করে, তবুও আপনার কাছে পিক্সেল ইনপ্রেসিবল শব্দের হিসাবে কম 3 বিট থাকবে। এবং সঙ্কুচিত সংস্করণটি প্রতি পিক্সেলটিতে 8 বিট b সুতরাং কম্প্রেশন অনুপাত 1: 2 এর বলপার্কে থাকবে, আপনি যা-ই করেন না কেন।


অতিরিক্ত-আদর্শিক অবস্থার সন্ধানের প্রয়াস সহ আরেকটি উদাহরণ:

  • একটি আধুনিক ডিএসএলআর ক্যামেরা, সর্বনিম্ন সংবেদনশীলতা সেটিংটি ব্যবহার করে (কম শব্দ) noise
  • ধূসর কার্ডের আউট-অফ-ফোকাস শট (ধূসর কার্ডে কিছু দৃশ্যমান তথ্য থাকলেও তা ঝাপসা হয়ে যাবে)।
  • কোনও বিপরীতে যুক্ত না করে RAW ফাইলটির একটি 8-বিট গ্রেস্কেল চিত্রে রূপান্তর। আমি বাণিজ্যিক RAW কনভার্টারে টিপিক্যাল সেটিংস ব্যবহার করেছি। রূপান্তরকারী ডিফল্টরূপে শব্দ হ্রাস করার চেষ্টা করে। তদতিরিক্ত, আমরা শেষ ফলাফলটি একটি 8-বিট ফাইল হিসাবে সংরক্ষণ করছি - আমরা প্রকৃতপক্ষে, কাঁচা সেন্সর রিডিংয়ের সর্বনিম্ন-ক্রম বিটগুলি ফেলে দিচ্ছি!

এবং শেষ ফলাফল কি ছিল? স্ক্যানারের কাছ থেকে আমি যা পেয়েছি তার থেকে এটি অনেক ভাল দেখাচ্ছে; গোলমাল কম উচ্চারণ করা হয়, এবং ঠিক দেখার মতো কিছুই নেই। তবুও গাউসির আওয়াজ আছে:

30x30 শস্য, 10 গুণক দ্বারা ম্যাগনিটিড বারলেখ

আর এন্ট্রপি? প্রতি পিক্সেল 2.7 বিট । অনুশীলনে ফাইলের আকার? 1 এম পিক্সেলের জন্য 344923 বাইট। সত্যিকারের সেরা ক্ষেত্রে, কিছু প্রতারণার সাথে আমরা সংক্ষেপণের অনুপাতটিকে 1: 3 এ ঠেলে দিয়েছি।


অবশ্যই এইগুলির সকলের টিসিএস গবেষণার সাথে ঠিক কোনও সম্পর্ক নেই, তবে আমি মনে করি যে সত্যিকারের ডিজিটালাইজড উপাত্তগুলির সংকোচনে কী সত্যই সীমাবদ্ধ করে তা মনে রাখা ভাল । ফ্যানসিয়ার কম্প্রেশন অ্যালগোরিদম এবং কাঁচা সিপিইউ পাওয়ারের নকশায় অগ্রগতিগুলি সাহায্য করবে না; আপনি যদি সমস্ত শব্দটি ক্ষতিহীনভাবে সংরক্ষণ করতে চান তবে আপনি 1: 2 এর চেয়ে বেশি কিছু করতে পারবেন না।


3
শান্ত! যদি শব্দটি গাউসিয়ান হয় তবে আমার অনুভূতিটি হ'ল প্রথম কে সিঙ্গুলার ভেক্টরগুলিতে (বা অনুরূপ আরও অভিনব কৌশল) প্রজেক্ট করা অনেকটা আওয়াজ সরিয়ে ফেলবে। একটি দ্রুত গুগল পন্ডিত অনুসন্ধান এম এলাদ এবং এম আহারনের একটি নিবন্ধ প্রকাশ করেছে, যা প্রক্ষেপণ পদ্ধতিটি ব্যবহার করে + কিছু কিছু বয়েশিয়ান পরিসংখ্যান কৌশল: ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=4011956 । ধারণা করা হয়, 2006 সালে এটি ছিল "শিল্পের রাজ্য"। অবশ্যই, এটি ক্ষতিহীন নয়, তবে জুক্কার ডেটা দেখায় যে আপনি যদি ছোট আকারের জন্য জোর দেন তবে আপনার কমপক্ষে শব্দটি হারাতে হবে।
সাশো নিকোলভ

তোমার উদাহরণ কয়েক অবচয়হীন কম্প্রেশন সম্পর্কে শুধুমাত্র ইমেজ । আমি অনিচ্ছুকভাবে শারীরিক সেন্সরগুলি থেকে আসা কোনও ডেটা (শব্দ, চিত্র, ভিডিও, সম্ভবত সম্ভবত একটি স্বতন্ত্র ফ্যাক্টর সহ) তাদের সাধারণীকরণটি দেব but তবে আরও অনেকগুলি ক্ষেত্র রয়েছে যেখানে সংক্ষেপণ প্রয়োগ করা হয়েছে, 1 এর চেয়ে অনেক বেশি অনুপাত সহ: 2 (প্রাকৃতিক ভাষা মনে আসে), কারণ কম শব্দ আছে।
জেরেমি

2
@ জুক্কা: +১: সুন্দর পরীক্ষা! @ সাশো: চিকিত্সা চিত্রগুলির জন্য, প্রচলিত প্রজ্ঞাটি হ'ল আপনি কিছু হারাতে পারবেন না, যদিও এটি খুব সম্ভবত খুব শব্দ হয়।
পিটার শর

2
খুব সুন্দর এবং স্পষ্ট ব্যাখ্যা!
মারজিও দে বিয়াসি

2
আরও একটি মন্তব্য: এটি মেডিকেল চিত্রগুলির জন্য সত্যই অনিবার্য। যদি আপনি মেডিক্যাল চিত্রগুলিতে এই শব্দটির যথেষ্ট পরিমাণে যথাযথতা না ব্যবহার করেন তবে আপনি সম্ভবত কিছু প্রকৃত প্রাসঙ্গিক বিবরণ হারাচ্ছেন যা আপনি সত্যই রাখতে চান।
পিটার শোর

16

আপনি কি ইতিমধ্যে শ্যাননের নির্বোধ কোডিং উপপাদ্য সম্পর্কে জানেন ? এই উপপাদ্য হ্রাসহীন সংকোচনের উপর তাত্ত্বিক সীমা স্থাপন করে। অন্যদের কাছ থেকে নেওয়া কিছু মন্তব্য মনে হয় আপনি এই উপপাদ্য সম্পর্কে জানেন তবে প্রশ্ন থেকে, আমি মনে করি এটি আপনি উত্তর খুঁজছেন তা হতে পারে।


আমি এই উপপাদ্য সম্পর্কে জানতাম না। আমি অনুমান করি যে উইকিপিডিয়াটির দাবিটি ঠিক সঠিক নয়, কারণ প্রাপ্য সংকোচনের অনুপাতটি সংকুচিত হওয়ার জন্য ডেটার প্রবেশের উপর নির্ভর করে।
অরন

আমি বিশ্বাস করি যে চিত্রগুলির অভ্যন্তরীণ এনট্রপি নির্ধারণ করা সত্যিই বেশ শক্ত - যদি ডেটা 2-ডি এর পরিবর্তে লিনিয়ার হয় তবে এটি অনেক সহজ।
পিটার শর

সুতরাং, এলোমেলোভাবে (ইউনিফর্ম) উত্পন্ন পাঠ্যের জন্য সর্বাধিক সংক্ষেপণ অনুপাত কী হবে?
স্ক্যান

11

n>0

  1. n

  2. সাধারণ ব্যবহারিক সমাধানটি হ'ল 8 বিট ব্যবহার করা, যদি আপনি কেবলমাত্র পূর্ণসংখ্যাগুলি এনকোড করে থাকেন তবে সবগুলি 1 এবং 256 এর মধ্যে থাকে (যদি আপনি চান তবে 16, 32 এবং 64 বিটকে সাধারণ করুন)।

  3. n+1nn

  4. log2nlog2n+1nlog2n1log2n2log2n1nlgn=max(1,log2n)

  5. গামা কোডটি সর্বোত্তম নয় , এই অর্থে যে অন্যান্য কোড রয়েছে যথেচ্ছ বহু সংখ্যার জন্য কম স্থান ব্যবহার করে, এবং কেবলমাত্র সীমাবদ্ধ পরিমাণের জন্য আরও কিছু। ১৯ on6 সাল থেকে জন লুই বেন্টলে এবং অ্যান্ড্রু চি-চিহ ইও-র "আনবাউন্ডেড অনুসন্ধানের জন্য প্রায় অনুকূল একটি অ্যালগরিদম" বিষয়টিতে একটি খুব ভাল পড়া হ'ল (আমি বিশেষত অনুসন্ধান অ্যালগরিদমের জটিলতা এবং পূর্ণসংখ্যার এনকোডিংয়ের আকারের মধ্যে তাদের লিঙ্কটি পছন্দ করি: I এটি আমার জানা সবচেয়ে সহজ এবং সুন্দর টিসিএস ফলাফলগুলির মধ্যে একটি খুঁজুন)। নীচের লাইনটি হ'ল বিট অনুকূল দুটি এর একটি ফ্যাক্টরের মধ্যে রয়েছে, যা বেশিরভাগ একমত ভাল সমাধানের জটিলতার কারণে যথেষ্ট।2log2n1

  6. তবুও, "সুবিধাবাদী" দৃষ্টিভঙ্গিটিকে তার সীমাতে নিয়ে যাওয়ার জন্য, বিভিন্ন অনুমানের সুবিধা নিয়ে নিরন্তর সংখ্যক সংক্ষেপণ স্কিম রয়েছে। সুবিধাবাদী এনকোডিংগুলির এই অনন্তকে মোকাবিলা করার একটি উপায় (অর্থাত্ সংক্ষেপণ প্রকল্প) হ'ল হাইপোথিসিসের এনকোডিং প্রয়োজন, এবং মোট সংক্ষেপণের আকারে অনুমানের এনকোডিংয়ের আকারটি বিবেচনা করা। আনুষ্ঠানিকভাবে, এটি সংকুচিত ডেটা এবং ডিকোডার উভয়ই এনকোডের সাথে মিলে যায় , বা আরও সাধারণভাবে কোনও প্রোগ্রামকে এনকোড করার জন্য যা কার্যকর করা হলে, সঙ্কোচিত বস্তুকে আউটপুট করে দেয়: এই জাতীয় প্রোগ্রামের ক্ষুদ্রতম আকারকে কলমোগোরভের জটিলতা বলা হয় । এটি এই অর্থে খুব তাত্ত্বিক নির্মাণ যে, প্রোগ্রামটি কার্যকর করার সময়কে সীমা ছাড়াইকেKKগণনাযোগ্য নয়। এই ধারণার চারপাশে একটি সহজ কাজটি লেভিনের স্ব-সীমাবদ্ধ কর্মসূচি দ্বারা প্রদত্ত , যেখানে আপনি কেবল একটি সীমাবদ্ধ প্রয়োগের সময়কালের প্রোগ্রামগুলি বিবেচনা করেন (উদাহরণস্বরূপ, মূল উদাহরণটির দৈর্ঘ্যের একটি ধ্রুবক ফ্যাক্টরের মধ্যে, যা নীচের দিকে আবদ্ধ হয়) অ্যালগরিদমের জটিলতা যা প্রতিটি চিহ্ন লিখতে হবে)।

কোলমোগোরভের জটিলতা এবং এর রূপগুলি সম্পর্কে একটি গোটা সম্প্রদায় কাজ করছে এবং লোকসান কম সংকোচনের ক্ষেত্রে কাজ করা অন্য একটি সম্প্রদায় (উদাহরণস্বরূপ যে আমি ব্যবহার করেছি অন্যান্য ডেটা ধরণের সমতুল্য), আমি সবেমাত্র পৃষ্ঠটি আঁচড়েছি, এবং অন্যরা নির্ভুলতা যুক্ত করতে পারে (কলমোগোরভ সত্যিই আমার বিশেষত্ব নয়) তবে আমি আশা করি যে এটি আপনাকে আপনার প্রশ্নটি পরিষ্কার করতে সহায়তা করতে পারে, যদি না জরুরীভাবে আপনাকে যে উত্তরটি প্রত্যাশী ছিল সে উত্তর দেয় :)


7

(আমার মন্তব্যের মাত্র একটি এক্সটেনশন)

(তার উত্তরে জো দ্বারা নির্দেশিত হিসাবে) শ্যানন - তাঁর 1948-এর গবেষণাপত্রে, " একটি গণিতের তত্ত্বের যোগাযোগ " ডেটা সংক্ষেপণের তত্ত্বটি প্রণয়ন করেছিল এবং প্রতিষ্ঠিত করেছিল যে লসলেস ডেটা সংক্ষেপণের মৌলিক সীমা রয়েছে। এই সীমাটি, এন্ট্রপি রেট নামে পরিচিত, এইচ দ্বারা চিহ্নিত করা হয়েছে। এইচ এর সঠিক মান তথ্য উত্সের উপর নির্ভর করে --- আরও সুনির্দিষ্টভাবে উত্সটির পরিসংখ্যানগত প্রকৃতি। সংক্ষিপ্ত আকারে, এইচ-এর কাছাকাছি সংকোচনের হারের সাহায্যে উত্সকে সংকোচন করা সম্ভব H এইচ এর চেয়ে আরও ভাল কাজ করা গণিতের পক্ষে অসম্ভব is

তবে কিছু শ্রেণীর চিত্র (উদাহরণস্বরূপ মেডিকেল গ্রেস্কেল চিত্রগুলি) উচ্চ-বিপরীত প্রান্তগুলি ছাড়াই এবং মসৃণ স্তরের ট্রানজিশন সহ সঙ্কুচিত হতে পারে (এত দক্ষতার সাথে নয়)।

জেপিইজি-এলএস এবং জেপিগ 2000 চিকিত্সা চিত্রের নিরবিচ্ছিন্ন স্টোরেজের মান বলে মনে হচ্ছে। সংক্ষেপণের অনুপাতের তুলনা করার জন্য এই টেবিলটি দেখুন (জেপিইজি-এলএস কিছুটা ভাল সংক্ষেপণ অর্জন করে)।

"লসলেস মেডিকেল ইমেজ সংক্ষেপণ" ব্যবহার করে আমি নিম্নলিখিত নিবন্ধগুলি পেয়েছি যা আপনাকে সহায়তা করতে পারে:

মেডিকেল ইমেজ সংক্ষেপণ কৌশল সম্পর্কিত একটি সাম্প্রতিক (২০১১) জরিপ: দুটি মাত্রিক মেডিকেল ইমেজ সংক্ষেপণ কৌশল - একটি সমীক্ষা

... এই কাগজটি টিসিটি, ডিডাব্লুটি, আরওআই এবং নিউরাল নেটওয়ার্কের উপর ভিত্তি করে এখনও দ্বি মাত্রিক (2 ডি) মেডিকেল চিত্রগুলির জন্য বিভিন্ন সংক্ষেপণের কৌশলগুলির ওভারভিউ উপস্থাপন করেছে pre

দুটি স্ট্যান্ডার্ড লসলেস কম্প্রেশন অ্যালগোরিদমগুলির বিশদ উপস্থাপনা: জেপিইজি-এলএস এবং জেপিজি 2000 এ লসলেস মোডে: গ্রেস্কেল মেডিকেল ইমেজের লসলেস সংকোচনের - ditionতিহ্যবাহী এবং শিল্পের পদ্ধতির রাষ্ট্রের কার্যকারিতা

... একাধিক শারীরিক অঞ্চল, পদ্ধতি এবং বিক্রেতাদের তিন হাজার, ছয়শত উনান্ন (3,679) একক ফ্রেমের গ্রেস্কেল চিত্রগুলি পরীক্ষা করা হয়েছিল। ...

আরেকটি সমীক্ষা: সমসাময়িক মেডিকেল ইমেজ সংক্ষেপণ কৌশলগুলির একটি সমীক্ষা

সম্পাদনা

সম্ভবত আপনি এখনও ভাবছেন "একটি চিত্রের এন্ট্রপি কী?" ... ঠিক আছে, এটি চিত্রের মধ্যে থাকা তথ্যের পরিমাণ ... তবে এটি আরও ভালভাবে বুঝতে আপনার সাধারণত চিত্রের সংকোচনে ব্যবহৃত 3 টি পর্যায় সম্পর্কে কিছু পড়া উচিত :

  • রূপান্তর (উদাহরণস্বরূপ স্বতন্ত্র ওয়েভলেট রূপান্তর)
  • quantization
  • এনট্রপি এনকোডিং

আপনি ইমেজ সংক্ষেপণের উপর টিউটোরিয়াল বা বইয়ের জন্য অনুসন্ধান করতে গুগল ব্যবহার করতে পারেন (উদাহরণস্বরূপ একটি দ্রুত টিউটোরিয়াল ), বা একটি অনলাইন প্রযুক্তিগত ভিডিও দেখার চেষ্টা করতে পারেন (উদাহরণস্বরূপ বক্তৃতা 16 - চিত্র এবং ভিডিও কোডিংয়ের ভূমিকা )।


7

স্ট্রিং হিসাবে একটি ফাইল ভাবেন।

কোনও স্ট্রিংয়ের কোলমোগোরভ জটিলতার চেয়ে ভাল আপনি আর কখনও করতে পারবেন না (এটি কমোগোরভ জটিলতার সংজ্ঞা অনুসারে)।

একটি স্ট্রিং দৈর্ঘ্য ঠিক করুন। সুতরাং এখন আমরা কেবল দৈর্ঘ্যের স্ট্রিং এ খুঁজছি।

এই জাতীয় সমস্ত স্ট্রিংয়ের অর্ধেকটি কমপক্ষে 1 বিট দ্বারা সংকুচিত করা যেতে পারে। সমস্ত স্ট্রিংয়ের 1/4 টি সর্বাধিক 2 বিট দিয়ে সংকুচিত করা যায়। এই জাতীয় সমস্ত স্ট্রিংয়ের 1/8 টি সর্বোচ্চ 3 বিট দিয়ে সংকুচিত করা যেতে পারে।

সুতরাং স্ট্রিংগুলির কী ভগ্নাংশ (চিত্র, ফাইল, ইত্যাদি) 2: 1 এর অনুপাতে সংকুচিত করা যায় - খুব, খুব কম। সুতরাং কেন সংক্ষেপ কখনও কাজ করে? কারণ প্রকৃত লোকেরা আসলে সংকোচনের চেষ্টা করছে এমন প্রায় সমস্ত ডেটা অত্যন্ত কাঠামোগত - এটি কোনও এলোমেলো ফাইলের মতো লাগে না। ডেটা যত বেশি এলোমেলোভাবে দেখছে, সংক্ষেপণ করা তত বেশি শক্ত। তারা একসাথে যেতে। বেশিরভাগ স্ট্রিং এলোমেলো দেখায়।

এটি কার্যকরভাবে দেখতে কিছু র্যান্ডম প্রক্রিয়া ব্যবহার করে একটি এলোমেলো ফাইল তৈরি করুন। আমি বলতে চাই একটি সত্যই, সত্যই র্যান্ডম ফাইল। এখন আপনার প্রিয় সংক্ষেপণ অ্যালগরিদম ব্যবহার করে এটি সংকোচনের চেষ্টা করুন। এটি হয় প্রায় একই সময় একই আকার থাকবে বা বড় হবে।

ফ্লিপ দিকে, অত্যন্ত সংকোচযোগ্য স্ট্রিং রয়েছে। নিম্নলিখিত স্ট্রিংটি নিন: 100000..000 (1 মিলিয়ন জিরো অনুসরণ করবে) এটির বর্ণনটি পূর্ববর্তী বাক্যে খাপ খায় এবং কোনও কম্পিউটার সেই বর্ণনা থেকে এটি পুনর্গঠন করতে পারে (বা এটি খুব একটা পছন্দ করে)। তবুও এই বিবরণটি মিলিয়ন ডিজিট দীর্ঘ আর কোথাও নেই।

আসল বিষয়টি হ'ল এই সম্পত্তিটির (যেগুলি অত্যন্ত সংকোচযোগ্য) এর সাথে স্ট্রিংগুলি সমস্ত সম্ভাব্য স্ট্রিংগুলির মধ্যে অত্যন্ত বিরল। গৌণ সত্যটি হ'ল প্রায় সমস্ত মানব-উত্পন্ন ডেটা সুপার, সুপার কমপ্রেসেবল কারণ এটি এতটা কাঠামোগত।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.