লিনাক্স সরঞ্জামগুলি নকল ফাইল সন্ধান করতে?


13

আমার কাছে টেক্সট ফাইলগুলির একটি বৃহত্তর এবং ক্রমবর্ধমান সেট রয়েছে যা সবগুলি বেশ ছোট (100 বাইটেরও কম)। আমি প্রতিটি সম্ভাব্য জোড়া ফাইল এবং নকল যা নোট নোট করতে চাই। আমি এটি করার জন্য একটি পাইথন স্ক্রিপ্ট লিখতে পারি, তবে আমি ভাবছি যে কোনও লিনাক্স কমান্ড-লাইন সরঞ্জাম (বা সম্ভবত কোনও সাধারণ সংমিশ্রণ) রয়েছে যা এটি করবে?

আপডেট ( এমফিনির মন্তব্যের প্রতিক্রিয়া হিসাবে ): ফাইলগুলি সমস্ত একক ডিরেক্টরিতে থাকে, সুতরাং তাদের সকলেরই আলাদা আলাদা আলাদা আলাদা ফাইলের নাম থাকে। (তবে তাদের সকলের একটি ফাইলের নাম এক্সটেনশান রয়েছে, যার ফলে তাদের সকলকে একটি ওয়াইল্ডকার্ড দিয়ে নির্বাচন করা সহজ)


আমি ধরে নিচ্ছি যে ফাইলের নামগুলি নকল নয়, কেবল সামগ্রীগুলি?
mfinni

pixbeat.org/fslint যদি আপনি উপরের লিঙ্কটির বিষয়বস্তুগুলি সন্ধান করছেন তবে এটি করতে আপনাকে সহায়তা করতে পারে। :)
রজত

উত্তর:


22

আছে fdupes । তবে আমি সাধারণত এর সংমিশ্রণটি ব্যবহার করিfind . -type f -exec md5sum '{}' \; | sort | uniq -d -w 36


1
এই প্রকরণটি আমার পক্ষে কাজ করেছে: find . -name "*.csv" | xargs md5sum | sort | uniq -D -w 34 (আমি ইউনিক-ডি ব্যবহার করেছি, এবং আমি এক্সেকগুলি সন্ধান করতে জার্গাগুলি পছন্দ করি))
ড্যারিল স্পিজিটর

+1 আমি fdupes সম্পর্কে সচেতন ছিলাম না, এই সরঞ্জামটি খুব দরকারী বলে মনে হচ্ছে।
জোড়াদেচি

3
@ ড্যারিল: xargsএই জাতীয় ব্যবহারটি ফাঁকা ফাইল ফাইলগুলির সাথে কাজ করে না, -execতবে এটি ব্যবহার করে। -type fঅতিরিক্ত যুক্তি হিসাবে ব্যবহার করা find(এর সাথে একসাথে ব্যবহার করা যেতে পারে -name) ফাইলগুলিতে অনুসন্ধানকে সীমাবদ্ধ করে।
ফুয়েনফুন্ডাচটজিগ

Fdupes জন্য +1, যেহেতু এটি বিশাল বাইনারি ফাইলগুলির জন্যও দ্রুত।
বেংট

কিছু বিরল অনুষ্ঠানে আমি xargs কাজ না করে (কিছু পরিমাণ প্রক্রিয়াজাত ফাইলের পরে ক্র্যাশ করেছিলাম) কিন্তু খুঁজে পাই না-যা সব সময় জেগে থাকে। @ ফুয়েনফুন্ডাচটজিগ, এই ধরণের ফাইলগুলি পরিচালনা করতে কেউ xargs -0 --delimiter = "\ n" ব্যবহার করতে পারে।
ychaouche

6

ঠিক আছে এফস্লিন্ট রয়েছে - যা আমি বিশেষত এই ক্ষেত্রে ব্যবহার করি নি, তবে আমার এটি হ্যান্ডেল করতে সক্ষম হওয়া উচিত: http://en.flossmanouts.net/FSlint/Intrration


FSlint এর জন্য +1। খুব স্বজ্ঞাত ইন্টারফেস এবং শক্তিশালী কাস্টমাইজেশন বিকল্পগুলি।
গ্লুটানীমেট

3

আপনি প্রায় প্রতিটি ফাইলের পৃথক করতে চান না। আপনি সম্ভবত md5sums এর মতো কিছু ব্যবহার করতে চাইলে সমস্ত ফাইল এবং পাইপের সমস্ত চেকসাম পাওয়া যায় যা অন্য কোনও সরঞ্জামে ডুপ্লিকেট চেকসামের পিছনে প্রতিবেদন করবে।


2
আপনি কেবলমাত্র আকারের ফাইলগুলির জন্য md5sums গণনা করে গণনা করা md5sums এর সংখ্যা হ্রাস করতে পারেন, যার জন্য সেই আকারের একাধিক ফাইল রয়েছে। তাই বাইটে অনন্য আকারের সমস্ত ফাইলের জন্য আপনার একটি এমডি 5সামের দরকার নেই, কারণ সেগুলি কোনও কিছুর সদৃশ হতে পারে না।
টমসভ
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.