MNIST ডেটাসেট -। জিজি ফাইলগুলিতে "কাঁচা" বাইট নেই


0

আমি ব্যবহার করার চেষ্টা করছি মনিস্ট ডেটাসেট । যাইহোক, যখন আমি .gz চিত্র ফাইলটি ডাউনলোড করি এবং তারপরে এটি আনজিপ করি, তখন আমি অনেকগুলি "সংকুচিত" বাইট পাই। এখানে এটি একটি বিট:

'Tπüó<$fi˛˛˛˛Ò∆∆∆∆∆∆∆∆™4CrHr£„˛·˛˛˛˙²˛åBCCC;Ï˛jS˝—ÈˇSÅ˛Ó,;˘˛>Ö˛ª   
Õ¯:~˛∂K˚9›˛¶À˛€#&˛˛M‡˛sÖ˛˛4=Ú˛˛4y˛˛€(y˛œt}´ˇˇñ]©˝˝˝˝˝˝⁄©˝˝˝’é∞˝˝z4˙˝“ 
Œ˝åM˚“z¯˝A—˝˝Au˜˝∆
L˜˝Á?Ä˝˝ê∞ˆ˝üÍ˝È#∆˝˝çN¯˝Ω»˝˝çÜ˝˝≠

আমার মনে হয় এইগুলি "সংকুচিত" বাইট, অন্তত। যাইহোক, পৃষ্ঠার নীচের অংশে "ফাইল বিন্যাস ব্যাখ্যাকারী" অনুসারে, ফাইলের সামগ্রীটি কিছু 32-বিট পূর্ণসংখ্যা এবং তারপর স্বাক্ষরিত বাইটগুলির একটি গোষ্ঠী হওয়া উচিত। স্পষ্টতই, আমি যা দেখছি তা নয়।
এই ঘটনার কারণ কি? কারণ আমি জি। জি। ফাইলে ডাবল ক্লিক করেছি? কারণ আমি সঠিকভাবে ফাইলটি ডিকম্প্রেস করি নি? এটি প্রযুক্তিগত জ্ঞান অভাবের কারণে, এবং এইভাবে কীভাবে ফাইলগুলি অনুমিত হয়?
মূলত আমি উপরে বলেছিলাম যে আপনি কিভাবে সমস্যাটি সমাধান করেন এবং কিভাবে আপনি এটি সমাধান করেন।
উপায়ঃ আমি ম্যাক ওএস 10.13.3 এ আছি। ফাইল গুগল ক্রোম থেকে ডাউনলোড করা হয়েছিল

উত্তর:


1

ফাইলটির বিষয়বস্তুটি কিছু 32-বিট পূর্ণসংখ্যা এবং তারপর স্বাক্ষরিত বাইটগুলির একটি গুচ্ছ হওয়া উচিত। স্পষ্টতই, আমি যা দেখছি তা নয়।

না, ঠিক যেটা আপনি দেখছেন।

সব ফাইল কাঁচা বাইট গঠিত; অন্য সবই ব্যাখ্যা করার ব্যাপার, এবং আপনি কোন প্রোগ্রামটি দিয়ে ফাইলটি খুলছেন তার উপর নির্ভর করে।

যদি আপনি একটি টেক্সট এডিটরতে ফাইলটি খুলেন তবে এটি পাঠ্য প্রদর্শনের চেষ্টা করবে। এটি কাঁচা বাইট মানগুলি দেখাবে না, তবে কেবল ASCII টেবিল থেকে (অথবা ইউনিকোড বা অন্য কোডপৃষ্ঠ থেকে) সংশ্লিষ্ট অক্ষরগুলি দেখাবে।

যাইহোক, MNIST ডাউনলোড পৃষ্ঠা না বলুন যে আপনার তথ্য ASCII এ দশমিক সংখ্যা হিসাবে লিখিত হবে। পরিবর্তে এটি সরাসরি বাইট মানগুলি ডেটা এনকোড করার জন্য ব্যবহার করে: একটি "32-বিট পূর্ণসংখ্যা" চার বাইট জুড়ে ছড়িয়ে পড়ে (8 বিট প্রতিটি); একটি "স্বাক্ষরিত বাইট" ভাল, এক বাইট।

সংক্ষেপে, ডাউনলোড করা ফাইলটি একটি কাস্টম ফর্ম্যাটে রয়েছে যা বিশেষ সফটওয়্যারটির ব্যাখ্যা করার জন্য প্রয়োজন বোধ করে; একটি টেক্সট এডিটর করবেন না। পরিবর্তে:

  • আপনি একটি ফাইল খুলতে পারে "হেক্স এডিটর" কার্যক্রম. হেক্স সম্পাদক করা কাঁচা বাইট মানগুলি দেখান (তারা বিশেষত বাইনারি ফাইল সম্পাদনা করার জন্য বোঝানো হয়), যদিও এটি এখনও দেখানো হয়েছে যে কোনও তথ্যকে বোঝার জন্য আপনার কাছে এটি রয়েছে।

  • আপনি তথ্যকে একটি পাঠ্য বিন্যাসে রূপান্তর করতে একটি ছোট প্রোগ্রাম লিখতে পারেন। MNIST এর মূল বিন্যাসটি বর্ণনা করা সহজ যে এটি Python এর 5-10 টি লাইন হতে পারে, উদাহরণস্বরূপ।

  • ফাইলগুলি গ্রাফিক্যাল ডেটা ধারণ করে - কাঁচা বিটম্যাপগুলি পিক্সেলের একটি সিরিজ হিসাবে। তাই আরো কিছু প্রোগ্রামিং দিয়ে তারা ইমেজ ফাইলের সিরিজ রূপান্তর করতে পারে (বিএমপি, জিআইএফ বা পিএনজি)।


উহু. আমি তথ্য সম্পর্কে কিছু জানি না ...: পি
Hazard
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.