ডকুমেন্টের দুটি পাইলগুলির মধ্যে একই রকম নথির সন্ধান করুন [বন্ধ]

আমি টেক্সট নথি দুটি দলের মধ্যে অনুরূপ নথি খুঁজে পেতে উপায় খুঁজছেন। আমি দুটি ফাইল তুলনা উপায় জানি। কিন্তু আমি ফাইল দুটি দলের মধ্যে যে উপায় করার জন্য খুঁজছেন।

ধরুন গ্রুপ 1 এর 100,000 নথি রয়েছে এবং গ্রুপ 2 এর 5000 নথি রয়েছে। আমি জানতে চাই যে গ্রুপ 2 এর কোনও দলিল 1 টি গোষ্ঠী এবং অনুরূপ স্কোরের দস্তাবেজের অনুরূপ।

কোন পরামর্শের জন্য ধন্যবাদ।

বি

— Brian
সূত্র

ঐক্য কিসের উপর ভিত্তি করে? নাম কি? প্রকার? ফাইলের আকার? সূচিপত্র?

— Eric F

আমি আপনাকে ফাইল "কন্টেন্ট" সম্পর্কে যত্ন অনুমান করতে যাচ্ছি। অভিন্ন ফাইলগুলি নির্ধারণ করা সহজ, কোন সদৃশ অনুসন্ধানকারী এই কৌশলটি করবে:

জিএনইউ / লিনাক্স: find . ! -empty -type f -exec md5sum {} + | sort | uniq -w32 -dD
জিএনইউ / লিনাক্স: fdupes (প্রায়ই সঙ্গে উপলব্ধ sudo apt install fdupes )
জিএনইউ / লিনাক্স: ডাফের (প্রায়ই সঙ্গে উপলব্ধ sudo apt install duff
উইন্ডোজ: CCleaner
উইন্ডোজ: dupeGuru [1]
উইন্ডোজ: ফাইল মুছে ফেলার অনুরূপ

সাধারণভাবে "অনুরূপ" ফাইলগুলির জন্য, এটি কঠিন হয়ে যায় - অনেক কঠিন। আপনি যদি অনুরূপ ছবি / ছবি খুঁজছেন, চেক আউট আমি তথ্য একটি খুব বড় পুল মধ্যে duplicate ফটো (শত শত gigs) কিভাবে খুঁজে পেতে পারি? । dupeGuru উপরে একটি চিত্র সাদৃশ্য অনুসন্ধান আছে যা কিছু মনে করে ঠিক আছে, তবে এটি এমন কিছু মিস করবে যা আপনি প্রায় একই রকম (বা অভিন্ন) মনে করতে পারেন। প্রকৃতপক্ষে, স্টেনোগ্রাফিকভাবে পরিবর্তিত চিত্রগুলি আপনার কাছে একই রকম দেখাবে কিন্তু একটি ফাইল-তুলনা অ্যালগরিদম নয়। কিছু ইমেজ প্রসেসিং এআই এর সাথে ভালভাবে কাজ করবে, কিন্তু আমি মনে করছি আপনি এগুলির মধ্যে একটি তৈরি করতে চান না।

এখন সত্যিই খারাপ খবরগুলির জন্য: আপনি যদি "অনুরূপ" ফাইলগুলির সব ধরণের সন্ধান করতে চান তবে পাঠ্য ফাইল, পিডিএফ, জিপ ফাইল ইত্যাদির মতো নয় তবে আপনাকে প্রতিটিের জন্য নির্দিষ্ট হ্যান্ডলার সন্ধান করতে হবে এবং আপনি কাজের অনেক পরে ফলাফল সঙ্গে খুশি।

কেন? আসুন একটি উদাহরণ হিসাবে দুটি মাইক্রোসফ্ট ওয়ার্ড নথি দেখি: "হ্যালো ওয়ার্ল্ড" এবং অন্যান্য "হ্যালো ওয়ার্ল্ড!" ("W" - & gt; "w" এবং একটি "!" যোগ করা হয়েছে)। আমি অনুমান করবো আপনি এইগুলি খুব উচ্চ সমানতা স্কোর পেতে চান। দুর্ভাগ্যবশত তারা 1997 সাল থেকে অন্য সংস্করণটি এবং 2007 থেকে অন্যটি বা মেটা-তথ্যটি ভিন্ন হলে বা ফর্ম্যাট পরিবর্তিত হলে দুর্ভাগ্যবশত তারা (> gt 90% বাইট) ভিন্ন হতে পারে। কিন্তু যদি আপনার কাছে এমন কোনও প্রক্রিয়া থাকে যা ফাইল থেকে শুধুমাত্র পাঠ্যটি সরিয়ে নেয় তবে আপনি এটিকে মোকাবেলা করতে আরও ভালভাবে সক্ষম হবেন, আপনি কেবল টেক্সট-পার্থক্যগুলির জটিলতার সাথে মোকাবিলা করতে হবে (ছোট হাতের সবকিছু, বিরামচিহ্ন এবং সাদা- স্থান, এবং তারপর তুলনা?)।

একইভাবে, যদি আপনি দুটি আছে অভিন্ন পিডিএফ ফাইলগুলি যখন আপনি ওপেন করেন তখন কীভাবে তারা দেখায়, তারা এখনও gtc: suffix = 90% বিট লেভেলে থাকতে পারে যদি ফন্টগুলি এম্বেড করা থাকে, সমস্ত মেটা-তথ্য যোগ করা হয় এবং চিত্র পূর্বরূপগুলি এম্বেড করা হয় এবং অন্যটিকে ফাঁকা করা হয় শুধুমাত্র মুদ্রণের জন্য প্রয়োজনীয় জিনিসগুলি এবং অনুমান করে সিস্টেমটিতে সমস্ত ফন্ট রয়েছে।

শেষ উদাহরণ: কোন ধরনের কম্প্রেস ফাইল। ব্যবহৃত বেশ কয়েকটি সাধারণ অ্যালগরিদমগুলির জন্য, ফাইলটিতে ক্ষুদ্র পরিবর্তনগুলি, বিশেষত ফাইলের প্রাথমিক দিক থেকে, ডিস্কগুলিতে লেখা বাইটগুলিতে নাটকীয় পরিবর্তন থাকতে পারে। তাই এখানেও আপনাকে ফাইল (গুলি), সম্ভাব্য পুনরাবৃত্তি, এবং তারপরে তুলনা করতে হবে। এবং সেই ক্ষেত্রে, আপনি কি সংক্ষেপিত ফাইল তুলনা বা অন্তর্নির্মিত ফাইল (গুলি) অন্তর্নিহিত তথ্যটির তুলনা করতে চান? উল্লেখ্য যে অনেক ফাইল ফর্ম্যাট অংশ বা সমস্ত ফাইলের মধ্যে ক্ষতিকারক বা লসলেস কম্প্রেশন ব্যবহার করে।

সংক্ষেপে, যতক্ষণ না আপনি প্রায় হাজার হাজার ফাইল আছে অভিন্ন বিন্যাস আপনি একটি খুব দীর্ঘ প্রকল্প খুঁজছেন হতে পারে।

— Gabe
সূত্র