আমি আপনাকে ফাইল "কন্টেন্ট" সম্পর্কে যত্ন অনুমান করতে যাচ্ছি। অভিন্ন ফাইলগুলি নির্ধারণ করা সহজ, কোন সদৃশ অনুসন্ধানকারী এই কৌশলটি করবে:
- জিএনইউ / লিনাক্স:
find . ! -empty -type f -exec md5sum {} + | sort | uniq -w32 -dD
- জিএনইউ / লিনাক্স: fdupes (প্রায়ই সঙ্গে উপলব্ধ
sudo apt install fdupes
)
- জিএনইউ / লিনাক্স: ডাফের (প্রায়ই সঙ্গে উপলব্ধ
sudo apt install duff
- উইন্ডোজ: CCleaner
- উইন্ডোজ: dupeGuru [1]
- উইন্ডোজ: ফাইল মুছে ফেলার অনুরূপ
সাধারণভাবে "অনুরূপ" ফাইলগুলির জন্য, এটি কঠিন হয়ে যায় - অনেক কঠিন। আপনি যদি অনুরূপ ছবি / ছবি খুঁজছেন, চেক আউট আমি তথ্য একটি খুব বড় পুল মধ্যে duplicate ফটো (শত শত gigs) কিভাবে খুঁজে পেতে পারি? । dupeGuru
উপরে একটি চিত্র সাদৃশ্য অনুসন্ধান আছে যা কিছু মনে করে ঠিক আছে, তবে এটি এমন কিছু মিস করবে যা আপনি প্রায় একই রকম (বা অভিন্ন) মনে করতে পারেন। প্রকৃতপক্ষে, স্টেনোগ্রাফিকভাবে পরিবর্তিত চিত্রগুলি আপনার কাছে একই রকম দেখাবে কিন্তু একটি ফাইল-তুলনা অ্যালগরিদম নয়। কিছু ইমেজ প্রসেসিং এআই এর সাথে ভালভাবে কাজ করবে, কিন্তু আমি মনে করছি আপনি এগুলির মধ্যে একটি তৈরি করতে চান না।
এখন সত্যিই খারাপ খবরগুলির জন্য: আপনি যদি "অনুরূপ" ফাইলগুলির সব ধরণের সন্ধান করতে চান তবে পাঠ্য ফাইল, পিডিএফ, জিপ ফাইল ইত্যাদির মতো নয় তবে আপনাকে প্রতিটিের জন্য নির্দিষ্ট হ্যান্ডলার সন্ধান করতে হবে এবং আপনি কাজের অনেক পরে ফলাফল সঙ্গে খুশি।
কেন? আসুন একটি উদাহরণ হিসাবে দুটি মাইক্রোসফ্ট ওয়ার্ড নথি দেখি: "হ্যালো ওয়ার্ল্ড" এবং অন্যান্য "হ্যালো ওয়ার্ল্ড!" ("W" - & gt; "w" এবং একটি "!" যোগ করা হয়েছে)। আমি অনুমান করবো আপনি এইগুলি খুব উচ্চ সমানতা স্কোর পেতে চান। দুর্ভাগ্যবশত তারা 1997 সাল থেকে অন্য সংস্করণটি এবং 2007 থেকে অন্যটি বা মেটা-তথ্যটি ভিন্ন হলে বা ফর্ম্যাট পরিবর্তিত হলে দুর্ভাগ্যবশত তারা (> gt 90% বাইট) ভিন্ন হতে পারে। কিন্তু যদি আপনার কাছে এমন কোনও প্রক্রিয়া থাকে যা ফাইল থেকে শুধুমাত্র পাঠ্যটি সরিয়ে নেয় তবে আপনি এটিকে মোকাবেলা করতে আরও ভালভাবে সক্ষম হবেন, আপনি কেবল টেক্সট-পার্থক্যগুলির জটিলতার সাথে মোকাবিলা করতে হবে (ছোট হাতের সবকিছু, বিরামচিহ্ন এবং সাদা- স্থান, এবং তারপর তুলনা?)।
একইভাবে, যদি আপনি দুটি আছে অভিন্ন পিডিএফ ফাইলগুলি যখন আপনি ওপেন করেন তখন কীভাবে তারা দেখায়, তারা এখনও gtc: suffix = 90% বিট লেভেলে থাকতে পারে যদি ফন্টগুলি এম্বেড করা থাকে, সমস্ত মেটা-তথ্য যোগ করা হয় এবং চিত্র পূর্বরূপগুলি এম্বেড করা হয় এবং অন্যটিকে ফাঁকা করা হয় শুধুমাত্র মুদ্রণের জন্য প্রয়োজনীয় জিনিসগুলি এবং অনুমান করে সিস্টেমটিতে সমস্ত ফন্ট রয়েছে।
শেষ উদাহরণ: কোন ধরনের কম্প্রেস ফাইল। ব্যবহৃত বেশ কয়েকটি সাধারণ অ্যালগরিদমগুলির জন্য, ফাইলটিতে ক্ষুদ্র পরিবর্তনগুলি, বিশেষত ফাইলের প্রাথমিক দিক থেকে, ডিস্কগুলিতে লেখা বাইটগুলিতে নাটকীয় পরিবর্তন থাকতে পারে। তাই এখানেও আপনাকে ফাইল (গুলি), সম্ভাব্য পুনরাবৃত্তি, এবং তারপরে তুলনা করতে হবে। এবং সেই ক্ষেত্রে, আপনি কি সংক্ষেপিত ফাইল তুলনা বা অন্তর্নির্মিত ফাইল (গুলি) অন্তর্নিহিত তথ্যটির তুলনা করতে চান? উল্লেখ্য যে অনেক ফাইল ফর্ম্যাট অংশ বা সমস্ত ফাইলের মধ্যে ক্ষতিকারক বা লসলেস কম্প্রেশন ব্যবহার করে।
সংক্ষেপে, যতক্ষণ না আপনি প্রায় হাজার হাজার ফাইল আছে অভিন্ন বিন্যাস আপনি একটি খুব দীর্ঘ প্রকল্প খুঁজছেন হতে পারে।