কীভাবে কার্যত কোনও ফাইলের এন্ট্রপি পরিমাপ করা যায়?


9

আমি এখন আমার ফাইলে থাকা অনেক বেশি রি-রিন্ডানড (প্রকৃত) তথ্য পরিমাপ করার চেষ্টা করছি। কেউ একে এন্ট্রপির পরিমাণ বলে।

অবশ্যই সেখানে স্ট্যান্ডার্ড পি (এক্স) লগ {পি (এক্স) is আছে তবে আমি মনে করি শ্যানন কেবল একটি চ্যানেল হলেও প্রেরণের দৃষ্টিকোণ থেকে এটি বিবেচনা করছিল। সুতরাং সূত্রে একটি ব্লকের আকারের প্রয়োজন (বিটগুলিতে বলুন, 8 সাধারণত)। একটি বড় ফাইলের জন্য, এই গণনাটি প্রতীকগুলির মধ্যে স্বল্প থেকে দীর্ঘ দূরত্বের সম্পর্ককে উপেক্ষা করে মোটামুটি অকেজো।

বাইনারি ট্রি এবং জিভ-লেম্পেল পদ্ধতি রয়েছে তবে এগুলি প্রকৃতির অত্যন্ত শিক্ষামূলক বলে মনে হয়।

সংকোচনের বিষয়টি এন্ট্রপির একটি পরিমাপ হিসাবেও বিবেচিত হয়, তবে সংক্ষেপণের ডিগ্রি হিসাবে কোনও কম সীমা নেই বলে মনে হয়। আমার ফাইল হিস.ওয়াভের জন্য,

  • আসল hiss.wav = 5.2 এমবি
  • শ্যানন সূত্রের মাধ্যমে এনট্রপি = 4.6 এমবি
  • hiss.zip = 4.6 এমবি
  • hiss.7z = 4.2 মেগাবাইট
  • hiss.wav.fp8 = 3.3 মেগাবাইট

হিসস.ওয়াভের মধ্যে কতটা এনট্রপি রয়েছে তা পরিমাপ করার কিছু যুক্তিসঙ্গত বাস্তব পদ্ধতি আছে?


1
"হাই একাডেমিক" বলতে আপনি কী বোঝেন তা আমি বুঝতে পারি না।
ডেভিড রিচার্বি

মরে গেছে। আমি ভেবে দেখেছি যে তথ্য সঞ্চার এবং সঞ্চয়স্থান সর্বাধিককরণে বিশ্বব্যাপী ব্যয় করা গবেষণার ডলারের সাহায্যে, আপনি প্রকৃতপক্ষে কতটা নির্লজ্জ পদার্থ নিয়ে কাজ করছেন তা অনুমান করার আরও উন্নততর উপায় হবে। আমি সম্ভাবনার ক্ষেত্রগুলির বাইরে এটি ভাবিনি যে আপনি এমন কোনও ফাইল ইউটিলিটি পাবেন যা আপনি কিছু ডেটা যে তাত্ত্বিক এনট্রপি অনুমানকে ছাড়িয়ে যান over টেলকোস এবং ডিস্ক নির্মাতারা কী খেলছেন?
পল উজ্জাক

উত্তর:


9

এন্ট্রপি একটি র্যান্ডম ভেরিয়েবলের একটি বৈশিষ্ট্য । একটি ধৃত ফাইলের শূন্য এন্ট্রপি রয়েছে, কারণ এটি ধ্রুবক। এনট্রপি অনেক পরিস্থিতিতে বোঝায় যে কোনও চ্যানেল নেই, এবং আপনি এটিকে একটি উত্স থেকে উত্পন্ন উত্সাহিত ডাব্লুএইভি ফাইলের একটি এলোমেলো সংকলনে প্রয়োগ করতে পারেন। এই ক্ষেত্রে, আপনারএক্সহয় সমগ্র WAV ফাইল।

আসল ডাব্লুএইভি ফাইল (শিরোনাম বাদে) কিছু মার্কোভিয়ান উত্স দ্বারা উত্পাদিত হওয়ার কথা ভাবা যেতে পারে। এই উত্সটি ক্রমানুসারে শব্দের প্রশস্ততা ("নমুনা") উত্পন্ন করে, প্রতিটি তার পূর্ববর্তীগুলির উপর নির্ভর করে। প্রক্রিয়াটি দীর্ঘ সময় চালানোর পরে, প্রতিটি নমুনার এনট্রপি (আরও সঠিকভাবে, পূর্ববর্তী নমুনাগুলি দিয়ে দেওয়া শর্তাধীন এনট্রপি) কিছু সীমিত মানের খুব কাছাকাছি যায়, যা আমরা উত্সটির এনট্রপি হিসাবে সংজ্ঞায়িত করি। এর এনট্রপিএন নমুনা হয় এনসেই সংখ্যার বার (সীমাতে; আবার, আরও সঠিকভাবে, আমরা শর্তযুক্ত এনট্রপি পরিমাপ করছি)। লেম্পেল এবং জিভ দেখিয়েছেন যে যদি নমুনা এনট্রপি হয়এইচ বিটস, তারপরে তাদের অ্যালগোরিদম সংকোচন করে এন নমুনা এইচএন+ +(এন)বিটস, উচ্চ সম্ভাবনা সহ (সম্ভাবনাগুলি নমুনাগুলির উপরে রয়েছে)। লেম্পেল – জিভ সংক্ষেপণ অনুশীলনে বেশ জনপ্রিয়, উদাহরণস্বরূপ জনপ্রিয় gzipফর্ম্যাটে ব্যবহৃত হয়।

লেম্পেল এবং জিভের এই ফলাফলের কারণে, লেম্পেল-জিভ অ্যালগরিদম ব্যবহার করে নমুনাগুলির দীর্ঘ ক্রম সংকুচিত করে কোনও উত্সের এনট্রপিটি প্রায় অনুমান করা যায়। এটি নির্দিষ্ট স্যাম্পলগুলির এনট্রপি অনুমান করে না, যা একটি ভাল-সংজ্ঞায়িত ধারণা নয় (একটি ধ্রুব ক্রমটি শূন্য এনট্রপি রয়েছে), বরং উত্সটি উত্পন্ন করার এনট্রপি।

সম্পর্কিত ধারণা হ'ল অ্যালগরিদমিক এন্ট্রপি , এটি কোলমোগোরভ জটিলতা নামেও পরিচিত । এটি আপনার ফাইলটি তৈরি করা সংক্ষিপ্ততম প্রোগ্রামের দৈর্ঘ্য। এই পরিমাণটি পৃথক ফাইলের জন্য অর্থবোধ করে। এলোমেলো উত্স দ্বারা উত্পাদিত কোনও ফাইলের ক্ষেত্রে, লেম্পেল – জিভ উপপাদ্যটি দেখায় যে কোনও ফাইলের অ্যালগোরিদমিক এনট্রপি শ্যানন এনট্রপি দ্বারা উচ্চ সম্ভাবনার সাথে আবদ্ধ। দুর্ভাগ্যক্রমে, অ্যালগরিদমিক এন্ট্রপি গণনাযোগ্য নয়, সুতরাং এটি তাত্ত্বিক ধারণাটি আরও বেশি।

ছবিটি সম্পূর্ণ করার জন্য, আমি উত্সটির এনট্রপি অনুমান করার জন্য ভিন্ন পদ্ধতির জন্য প্রডিকশন এবং প্রিন্টেড ইংরাজির এনট্রপি সম্পর্কিত শ্যাননের কাগজ পড়ার পরামর্শ দিই ।


আমার আছে. এবং শুরম্যান এবং গ্রাসবার্গার কাগজ। ইংরেজির জন্য তাদের আনুমানিক এনট্রোপের উপর ভিত্তি করে মনে হয় যে সেরা এনট্রপি অনুমানটি আমরা পাই তা হল fp8 এর মতো একটি PAQ8 ভেরিয়েন্টের সাথে সংকোচনের মাধ্যমে। শেক্সপিয়ার গদ্যের জন্য আমার ফলাফলগুলি বেশ ভালভাবে বিবাহ করেছে।
পল উজ্জাক

সমস্যাটি মনে হচ্ছে যদিও আমি মনে করেছি যে কোনও উত্সের এনট্রপির জন্য একটি সীমাবদ্ধ তাত্ত্বিক মান থাকতে হবে। সংক্ষেপণ দ্বারা নির্ধারণ কেবল সংক্ষেপণ অ্যালগরিদমের দক্ষতা প্রতিফলিত করে। মহাজাগতিকভাবে, আপনার জিজিপ ভাল, তবে 7z ভাল। আমার প্রশ্নে দেখানো হয়েছে এবং fp8 অনেক ভাল। আমি কি জানতে পারি যে হিস.ডাব্লু কেবলমাত্র ভবিষ্যতে fp12000 ব্যবহার করার সময় মোট এনট্রপির 10 বাইট রয়েছে?
পল উজ্জাক

এন্ট্রপি কোনও ফাইলের সম্পত্তি নয়; প্রতিটি স্বতন্ত্র ফাইলের শূন্য এনট্রপি থাকে। বরং, এন্ট্রপি একটি এলোমেলো উত্সের সম্পত্তি। নির্দিষ্ট ফাইলগুলির জন্য উপযুক্ত এলোমেলোতার একটি পরিমাপ হ'ল কোলমোগোরভ জটিলতা (এটি অ্যালগোরিদমিক এনট্রপি নামেও পরিচিত), তবে দুর্ভাগ্যক্রমে এই ব্যবস্থাটি গণনাযোগ্য নয়।
যুবাল ফিল্মাস

আপনি যখন কোনও উত্সের এনট্রপি অনুমান করার জন্য একটি ফাইল সংকুচিত করছেন, আপনি এমন একটি উপপাদ্য ব্যবহার করেন যা গ্যারান্টি দেয় যে উত্স দ্বারা উত্পন্ন উত্সের সংকোচনের হার উত্সের এনট্রপির কাছে পৌঁছায়। তবে, প্রকৃত সংক্ষেপণ ইউটিলিটিগুলি ভ্যানিলা লেম্পেল-জিভ অ্যালগরিদম প্রয়োগ করে না, বরং এটির আরও ব্যবহারিক সংস্করণ। আপনি যদি এনট্রপির অনুমান করতে চান, সম্ভবত আপনার এই লক্ষ্যটি মাথায় রেখে অ্যালগরিদমটি পুনরায় করা উচিত।
যুবাল ফিল্মাস

আমি একটি সংবিধানমূলক আলোচনা সরিয়েছি; মন্তব্যগুলি হাতের পোস্টের উন্নতি ছাড়া দীর্ঘ আলোচনার জন্য নয়। আপনি যদি ইন্ট্রপির বিষয়ে সততার সাথে আলোচনা করতে চান তবে দয়া করে একটি চ্যাট রুম তৈরি করুন। নাগরিক রাখতে মনে রাখবেন।
রাফায়েল
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.