আমি তিনটি ফাইল সিস্টেমে ~ 40TB ডেটা সহ একটি গবেষণা ক্লাস্টার উত্তরাধিকার সূত্রে পেয়েছি। ডেটা প্রায় 15 বছর পিছনে প্রসারিত হয় এবং গবেষকরা বিভিন্ন কারণে একে অপরের ডেটা অনুলিপি করেন এবং তারপরে কেবল অনুলিপিগুলিতে আটকে থাকায় সম্ভবত খুব ভাল পরিমাণে নকল হয় uplic
আমি fdupes এবং rMLint এর মতো ডি-ডুপিং সরঞ্জামগুলি সম্পর্কে জানি। আমি এমন একটি সন্ধানের চেষ্টা করছি যা এত বড় ডেটাসেটে কাজ করবে। সমস্ত ডেটা ক্রল করতে কয়েক সপ্তাহ (বা এমনকি এমনকি কয়েক মাস) সময় লাগবে কিনা সেদিকেও আমার খেয়াল নেই - আমি সম্ভবত ফাইল সিস্টেমগুলিতে আরও সহজে যেতে এটিকে থ্রটল করব। তবে আমাকে এমন একটি সরঞ্জামের সন্ধান করতে হবে যা কোনওভাবে র্যামের সাথে অত্যন্ত দক্ষ, বা র্যামের চেয়ে ফাইলগুলির মধ্যে এটির মধ্যস্থতাকারী সমস্ত ডেটা সংরক্ষণ করতে পারে। আমি ধরে নিচ্ছি যে আমি যদি এই সেট থেকে সমস্ত সেট এক সেট হিসাবে ক্রল করি তবে আমার র্যাম (GB৪ জিবি) শেষ হয়ে যাবে।
আমি এখন 900 গিগাবাইটের গাছে fdupes নিয়ে পরীক্ষা নিরীক্ষা করছি। এটি 25% পথ এবং র্যামের ব্যবহার ধীরে ধীরে পুরো সময়টি ক্রমবর্ধমান হয়, এখন এটি 700MB এ at
অথবা, ডিস্ক-ম্যাপযুক্ত র্যাম ব্যবহার করার জন্য কোনও প্রক্রিয়া পরিচালনার কোনও উপায় রয়েছে যাতে আরও অনেক বেশি পাওয়া যায় এবং এটি সিস্টেম র্যাম ব্যবহার করে না?
আমি সেন্টোস 6 চালাচ্ছি।