একাধিক গিজিপযুক্ত ফাইলের জন্য আরও ভাল সংক্ষেপণ অর্জন করুন


3

আমার বেশ কয়েকটি ডিরেক্টরি রয়েছে যার মধ্যে হাজার হাজার জিপিপ ফাইল রয়েছে (সামগ্রিকভাবে আমরা 1 এম ফাইলের কথা বলছি)। এর মধ্যে কয়েকটি ফাইল দূষিত এবং তাদের বেশিরভাগই আকারে সত্যিই ছোট (কয়েকটি কেবি)।

এগুলির প্রায় সমস্ত বিষয়বস্তুতে অত্যন্ত মিল, অতএব তাদের সকলকে একসাথে সংকুচিত করে বর্তমান পরিস্থিতির সাথে সংকোচনের অনুপাতকে আরও উন্নত করা উচিত।

যেহেতু আমি খুব কমই এই ডিরেক্টরিগুলি ব্রাউজ করি এবং আমার কেবল সংরক্ষণাগার কারণে এগুলি প্রায় প্রয়োজন, তাই আমার একটি অত্যন্ত উপলব্ধ এবং অত্যন্ত সংকোচযোগ্য বিন্যাস প্রয়োজন এবং একটি একক সংরক্ষণাগার তৈরি করতে হবে। পুরো সংরক্ষণাগারটিকে সংক্ষেপিত না করে একবারে নির্দিষ্ট ফাইলগুলিতে একবারে অ্যাক্সেসের এলোমেলো অ্যাক্সেসের ক্ষমতাটি ভালো লাগবে।

এখানে সেরা কৌশল কি? টার কি দুর্নীতির প্রতিরোধী? আমি এমন কিছু পছন্দ করবো যা ওয়ান-লাইনার বা সাধারণ ব্যাশ স্ক্রিপ্ট হিসাবে প্রয়োগ করা যেতে পারে।


1
দ্রষ্টব্য: tarএকটি সংক্ষেপক নয়।
কামিল ম্যাকিয়েরোস্কি

কোনও ফাইল দুর্নীতি থেকে "স্থিতিস্থাপক" নয়।
সেল্টারি

উত্তর:


3

এটি গবেষণা করার পরে, আমি যেভাবে সমস্যাটি সমাধান করব তা হ'ল সমস্ত ফাইলকে সঙ্কুচিত করা, সমস্ত sha256 টি যোগফলের (বা আপনি যে কোনও হ্যাশ পছন্দ করেন) একটি তালিকা তৈরি করুন, তারপরে সমস্ত ফাইল একসাথে একটি আর্কাইভের মধ্যে সংকুচিত করুন। আমি গতি এবং সহজলভ্যতার জন্য একটি টার.gz ফাইলটি ব্যবহার করতে আগ্রহী, তবে আপনি যদি একটি ছোট সংরক্ষণাগার চান তবে আপনি জিপ, বা বিজিপ, 7 জিপ, এক্সজেড বা অন্য কিছু ব্যবহার করতে পারেন। সমস্ত ফাইলকে একক বৃহত আকারে সংকুচিত করা তার নিজের ডানদিকে অনেকগুলি স্থান সাশ্রয় করবে।

এটি হয়ে গেলে, জিপ করা ফাইলটির জন্য রিডানডেন্সি এবং যাচাইকরণ তৈরি করতে 'par2' ব্যবহার করুন এবং .par2 ফাইলগুলির সাথে ফাইলটি ব্যাক আপ করুন। (আমি এটির সাথে খুব বেশি খেলিনি, তবে পার 2-এর উদ্দেশ্য হ'ল একটি সংরক্ষণাগার তৈরি করা যা ফাইলগুলির অখণ্ডতা বাড়ানোর জন্য রিডানডেন্সি (প্যারিটি) তৈরি করে।


আমি আসলে একই জিনিস কমবেশি ভাবছিলাম। সমস্যাটি হ'ল আমার কাছে সম্ভবত এখনই কোনও মিডিয়াতে সমস্ত ফাইল সঙ্কুচিত করার মতো পর্যাপ্ত জায়গা নেই (তারা যে বিবরণে আমার অ্যাকাউন্টে 1TB এর বেশি মনে হয় সে বিবরণে এটি যুক্ত করতে ভুলে গিয়েছিলেন)। সংরক্ষণাগারটি তৈরি করার সময় ফ্লাইতে থাকা ফাইলগুলিকে সঙ্কুচিত করার জন্য কি টারকে নির্দেশ দেওয়া সম্ভব? এছাড়াও, আপনার কি সংরক্ষণাগার ফর্ম্যাটগুলির সাথে এমন কোনও অভিজ্ঞতা আছে যা আপনাকে স্ট্রিমিং ফ্যাশনের পরিবর্তে ফাইলগুলিতে এলোমেলো অ্যাক্সেসের অনুমতি দেয়?
নোপার

@ নপার হ'ল জিজিপ করা বা টর.gz ফাইলগুলি - এটি একটি পার্থক্য করে
ডেভিডগো

ফাইল gzip হয় প্রত্যয়টি .gz
নোপার

2

দুর্ভাগ্যক্রমে, এর মতো প্রশ্নের কোনও নির্দিষ্ট উত্তর নেই। বিভিন্ন সংকোচনের প্রোগ্রাম এবং অ্যালগরিদমগুলির উপর ভিত্তি করে বিভিন্ন সংকোচনের অনুপাত থাকবে। যদি জানার উপায় ছিল যে কতটা ভাল কম্প্রেশন হবে। যদি সেখানে থাকে, আপনি কি মনে করেন না যে এটি সমস্ত সংক্ষেপণ প্রোগ্রামগুলিতে নির্মিত হবে?

আপনি বলছেন যে এখানে হাজার হাজার 1 এমবি ফাইল রয়েছে যা অনেকগুলি গিগাবাইটের সমান। আমাদের 5000 টি ফাইল রয়েছে তা বলার সুযোগ দেয় tha গিগাবাইট ডেটা। বলুন আল্ট্রাতে জিপ করা আপনাকে 2 গিগাবাইটে নামিয়ে দেয়। আপনি যদি অন্য কোনও প্রোগ্রাম এবং অ্যালগরিদম চেষ্টা করেন তবে 5% আরও ভাল (আমার মনে হয় এটি উচ্চতর অনুমান করা যায়), এটি আপনাকে কেবল 100 গিগাবাইট সাশ্রয় করে। গ্র্যান্ড স্কিমে খুব বেশি কিছু নেই।

দুর্নীতি থেকে স্থিতিস্থাপকতা হিসাবে, সেখানে কিছুই নেই। এটি সম্ভবত সম্ভব যে কোনও সংক্ষেপণ প্রোগ্রামটি ব্যর্থ সিআরসি চেকের মতো দুর্নীতি পরিচালনা করতে পারে another সর্বোপরি, এর অর্থ হতে পারে যে আপনার সমস্ত ডেটা কেবলমাত্র কিছু হারিয়ে গেছে lost তবে আবারও, জানার কোনও উপায় নেই। সহজ কথায় বলতে গেলে, গুরুত্বপূর্ণ ডেটার ব্যাকআপের কোনও প্রতিস্থাপন নেই।


আমি বলিনি আমি সামগ্রিকভাবে সেরা সংক্ষেপণ চাই। বর্তমান অবস্থা মডুলো সংক্ষেপণ অ্যালগরিদমের চেয়ে আরও ভাল। সুতরাং আমি প্রত্যাশা করছি যে একক টর ফাইলের উপর একই gzip সংক্ষেপণের প্রয়োগের ফলে একাধিক ফাইল পৃথকভাবে সংকুচিত হওয়ার চেয়ে আরও ভাল সংক্ষেপণের অনুপাত হতে পারে। দ্বিতীয় বিষয়টি ছিল ডেটার অপ্রয়োজনীয়তা। @ ডেভিডগো এর পরামর্শটি কৌশলটি করা উচিত (par2)। আর এখন আমি যে বিষয়টি বিবেচনা করছি তা হ'ল সংরক্ষণাগার বিন্যাসের জন্য এলোমেলো অ্যাক্সেসের ক্ষমতা রাখার ক্ষমতা, সুতরাং সংরক্ষণাগারের সমস্ত বিষয়বস্তু না পড়ে নির্দিষ্ট ফাইলটি বের করতে সক্ষম হওয়া।
নোপার
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.