আমি কীভাবে একটি বিশাল আকারের ডেটাতে নকল ছবিগুলি খুঁজে পেতে পারি?


16

আমি যখন প্রায় 100gb ডেটা নিয়ে কাজ করছি (কয়েক বছর ধরে সংগৃহীত) তখন কোনও ভাল ফটো ডুপ্লিকেশন সনাক্তকরণ ইউটিলিটির পরামর্শ দিতে পারে কি?

আমি এমন কিছু পছন্দ করব যা উবুন্টুতে কাজ করে।

আগাম ধন্যবাদ!

সম্পাদনা: এমন কোনও সরঞ্জাম আছে যা আমাকে আবিষ্কার করার পরে একবারে আমার সংগ্রহটি পুনর্গঠিত করতে এবং নকলগুলি সরাতে সহায়তা করবে?

সম্পাদনা 2: হার্ড অংশটি একবারে আমার কাছে কয়েক হাজার ডুপ্লিকেট ফাইল (যেমন fdupes এর আউটপুট) সমন্বিত আউটপুট পাওয়ার পরে কী করতে হবে তা সন্ধান করছে।

এটি স্পষ্ট নয় যদি আমি এখনও নিরাপদে কোনও ডিরেক্টরি মুছে ফেলতে পারি (যেমন ডিরেক্টরিতে যদি কোনও অনন্য ফাইল থাকতে পারে), যা ডিরেক্টরিগুলি অন্য ডিরেক্টরিগুলির সাবটাইটেল ইত্যাদি। এই সমস্যার জন্য একটি আদর্শ সরঞ্জাম ফাইলের সদৃশ নির্ধারণ করতে সক্ষম হওয়া উচিত এবং এরপরে আপনার ফাইল এবং ফোল্ডারগুলি পুনর্গঠনের একটি শক্তিশালী উপায় সরবরাহ করতে পারে। হার্ডলিঙ্ক (যেমন fslint হিসাবে) দ্বারা একীভূত করা ডিস্কস্পেসকে প্রকৃতপক্ষে মুক্ত করে তবে এটি অন্তর্নিহিত সমস্যাটি সমাধান করে না যা ডুপ্লিকেশনটি দিয়ে আরম্ভ করার জন্য উত্থাপন করেছিল - অর্থাত্ খারাপ ফাইল / দির সংগঠন।


এছাড়াও এই সম্পর্কিত প্রশ্ন দেখতে AskUbuntu , unix.stackexchange এবং সুপার-ইউজার
বায়োজিক

উত্তর:


7

ইমেজম্যাগিক উদ্ধার করতে। আমি মনে করি যে কোনও সমাধানের প্রথম পদক্ষেপটি আপনার সংগ্রহের আকার হ্রাস করা। আপনি যদি ফটোগুলি এর বিষয়বস্তু দ্বারা তুলনা করতে চান , বিশেষত যখন কিছু একে অপরের সামান্য সংশোধিত সংস্করণ হয় তবে খুব ভাল শুরু হ'ল তাদের থাম্বনেলেলে হ্রাস করা এবং তার পরে থাম্বনেইলগুলির তুলনা করা। আপনি প্রায় একই জাতীয় ফটোগুলি খুঁজতে এবং তুলনার সময় গুরুত্বহীন পার্থক্য "উপেক্ষা" করতে চাইলে এটি বিশেষভাবে সহায়ক।

আমার পরামর্শটি, উচ্চ স্তরে, আপনি:
1- ফটো থাম্বনেইলে হ্রাস করতে ইমেজম্যাগিকের মোগ্রিফি সরঞ্জামটি ব্যবহার করুন । এতে কিছু সময় লাগবে তবে এটি প্রকৃত তুলনার পদক্ষেপগুলিকে অনেক দ্রুত এবং আরও নির্ভুল করে তুলবে।
2- ইমেজম্যাগিকের তুলনা সরঞ্জামটি ব্যবহার করুন যা আপনাকে তুলনার জন্য একটি প্রান্তিক সেট নির্ধারণ করতে দেয়, অর্থাৎ এটি আপনাকে 85% একইরকম ফটোগুলি সন্ধান করতে দেয়। আপনার সর্বাধিক পছন্দ হওয়া প্রান্তিক মানটি নির্ধারণ করতে আপনি একটি নিয়ন্ত্রিত পরীক্ষা করতে চান।


থাম্বনেলগুলি তৈরি করার এই ধারণাটি আমি সত্যিই পছন্দ করি। নকলগুলি একবার পেয়ে গেলে এটি কী করে? এটি কি কেবল একটি তালিকা প্রদর্শন করে? আমার কাছে কয়েক হাজার ডুপ্লিকেট রয়েছে এবং এগুলি সমাধানে সহায়তা করার জন্য একটি চমৎকার জিইউআই রয়েছে খুব কার্যকর would
ফাস্টারজ

2
যেহেতু আপনি উবুন্টু ব্যবহার করেন, তাই আপনি স্বয়ংক্রিয়ভাবে বিশেষায়িত সরঞ্জামগুলির একটি হোস্টের অ্যাক্সেস পাবেন, প্রতিটিই একটি খুব নির্দিষ্ট কাজ যেমন আমার উল্লেখ করা 2 টি কার্যের মতো সমাধান করে। এটি একটি লেগো খেলা, আপনি যা খুশি তাই করতে পারেন, আপনার কেবল টুকরাগুলি একসাথে রাখা দরকার। প্রযুক্তিগতভাবে, আপনি 'তুলনা' সরঞ্জামটিতে 2 টি ফটো ফিড করেন এবং এটি আপনাকে জানায় যে একজনের সাথে অন্যটির সাথে কতটা সাদৃশ্য রয়েছে। আপনার সমস্যার সমাধান করার একটি উপায় হ'ল অনুরূপ সমস্ত ফটোগুলিকে ফোল্ডারে ভাগ করে নেওয়া যাতে আপনি তাদের মাধ্যমে মিথ্যা ধনাত্মক ফিল্টার করতে পারেন। তারপরে আপনি মিথ্যা ধনাত্মক বিষয়ে আবার 'তুলনা করুন' চালান এবং যতক্ষণ না সমস্ত ঠিক জায়গায় থাকে প্রক্রিয়াটি পুনরাবৃত্তি করুন।
কোডি

4

ওপেন সোর্স ফটো ভিউয়ার / সংগঠক গিকির একটি শক্তিশালী ফাইন্ড ডুপ্লিকেট বৈশিষ্ট্য রয়েছে । এটি সদৃশ সন্ধানের জন্য বিভিন্ন কৌশল প্রয়োগ করতে পারে:

  • ফাইলের নাম (কেস সংবেদনশীল বা সংবেদনশীল)
  • ফাইলের আকার
  • ফাইলের তারিখ
  • চিত্রের মাত্রা
  • MD5 চেকসাম।
  • অনুরূপ চিত্রের সামগ্রী (বেশ কয়েকটি দোরগোড়ায়)

এটি একটি ফলাফলের তালিকা দেয় যাতে থাম্বনেইল অন্তর্ভুক্ত থাকতে পারে যাতে আপনি ম্যানুয়ালি নিশ্চিত করতে পারেন।

এই হবে সম্ভবত ফাইলের হাজার হাজার জন্য ধীর হতে, কিন্তু আমি শুধু এটা ব্যবহার করে এবং লেট এটি কয়েক দিন চালানোর তা চিন্তা করি তার যাই হোক না কেন সম্ভবত কম প্রচেষ্টার খোঁজার করা বা কেস জন্য উপযোগী কিছু চেয়ে সামগ্রিক হয় - যদি না চেকসাম ম্যাচ আপনার প্রয়োজন হয়।


এটি ভালো মনে হচ্ছে. নকলগুলি একবার পেয়ে গেলে এটি কী করে? এটি কি কেবল একটি তালিকা প্রদর্শন করে? আমার কাছে কয়েক হাজার ডুপ্লিকেট রয়েছে এবং এগুলি সমাধানে সহায়তা করার জন্য একটি চমৎকার জিইউআই রয়েছে খুব কার্যকর would
ফাস্টারজ

এটি একটি জিইউআই উইন্ডোতে তাদের প্রদর্শন করে।
mattdm

3

"Fdupes" নামক একটি সামান্য ইউটিলিটি রয়েছে যা আপনার ইচ্ছা মতো করতে পারে?

"Fslint" নামে আরও একটি ইউটিলিটি রয়েছে যা আপনি চেষ্টা করে দেখতেও পারেন। (এটির একটি জিইউআই রয়েছে)।


আমি কেবল ছবিগুলির একটি ছোট সেট (কয়েক গিগ বা তাই) এবং এটির হতাশাজনক যে এটি কেবল সেখানে বসে স্পিনগুলিতে চেষ্টা করেছে। কোনও অগ্রগতি সূচক নেই, সময়ের অনুমান বাকি আছে, কিছুই নেই।
ফাস্টারজ

1
এই সরঞ্জামগুলি অভিন্ন ফাইলগুলি সন্ধান করে। এমনকি একটি অভিন্ন (পিক্সেলের জন্য পিক্সেল) চিত্র বিভিন্ন ফাইল সামগ্রী হতে পারে। আমি অনুমান করছি যে আপনি কেবল একই বর্ণমূর্তির মতো চিত্রের সাথে মিল রাখতে চান, তবে বিভিন্ন ফর্ম্যাট এবং আকারগুলি যেমন আপনি করেছেন ফসল এবং অন্যান্য প্রক্রিয়াজাতকরণগুলিও করতে চান, যেমন একই ছবিতে সমস্ত রকমের সংগ্রহ সংগ্রহ করতে ডিরেক্টরি। এটি এমন একটি চিত্রের নরম তুলনা হবে যাতে আত্মবিশ্বাসের সাথে ম্যাচ ফ্যাক্টর থাকে এবং একই দৃশ্যের বিভিন্ন ছবি মেলে।
স্কেপেইরেন

@ স্কেপেরেন আপনার প্রস্তাবিতটি দুর্দান্ত তবে উবুন্টুর জন্য কি এই জাতীয় সরঞ্জাম বিদ্যমান? আমি দেখেছি এক Windows এর জন্য কোথাও উল্লেখ - কিন্তু যে একটি বীভত্স ইন্টারফেস .. ইত্যাদি আছে করলো
Fasterz

ইমেজডাপলেস হ'ল একটি উইন্ডোজ অ্যাপ যা এমন ছবিগুলি দেখতে সক্ষম যা একই রকম দেখায়, তবে কিছু পার্থক্য রয়েছে। এটি কিছু আবর্তন, ফসল, আকার পরিবর্তন, রঙিন রঙ পরিবর্তন, জলছবি ইত্যাদিতে ধরা পড়বে ... আপনাকে আপনার গ্রন্থাগারটি স্ক্যান করতে হবে এবং আপনি কতটা পার্থক্য গ্রহণ করবেন তা এটি জানাতে হবে এবং এটি আপনাকে আনন্দের সাথে ফাইলগুলি প্রদর্শন করবে। তবে এটি কয়েকশ ফাইলের জন্য অসাধারণ জটিল হয়ে উঠবে এবং হাজার হাজার ফাইল ভয়ানক হবে। আমিও ইমেজডাপলেস সমতুল্য একটি লিনাক্সের সন্ধান করছি। চিত্রগুলি কখন অনুরূপ হয় তা জানাতে একটি অ্যাপ্লিকেশন যা তরঙ্গপত্র বা অন্য কোনও চিত্রের যাদু করে।
Therealstubot

এর জন্য ম্যান পৃষ্ঠা বিকল্পগুলি পড়ুন fdupes- ডুপগুলি মুছতে একটি বিকল্প রয়েছে। Askubuntu.com/a/476732
rrauenza

1

ডুপুগুগু পিকচার সংস্করণটি উইন্ডোজ, ম্যাক ওএস এক্স এবং লিনাক্সের জন্য একটি কাস্টমাইজযোগ্য ডুপ্লিকেট চিত্র সন্ধানকারী।

ডুপগুরুর কয়েকটি সংস্করণ রয়েছে (মানক, সংগীত ও চিত্র সংস্করণ) এবং চিত্র সংস্করণ আপনাকে অন্যান্য পদ্ধতিগুলির মধ্যে (যেমন এক্সআইএফ মূল চিত্রের টাইমস্ট্যাম্প বা ফাইলগুলি কেবল অভিন্ন হিসাবে) বিটম্যাপ ব্লকিং তুলনা অ্যালগরিদমের মাধ্যমে দৃশ্যত অনুরূপ চিত্রগুলি সন্ধান করতে দেয় ) ।

এটিতে অন্যান্য বিভিন্ন দরকারী বৈশিষ্ট্য রয়েছে যেমন বর্জনিত ফোল্ডারগুলি, আইফোোটো / অ্যাপারচার লাইব্রেরিগুলির জন্য সমর্থন এবং এটি কীভাবে ডুপ্লিকেটগুলি সনাক্ত করে এবং এটি তাদের সাথে কী করে তার যথেষ্ট কাস্টমাইজেশন।


0

সদৃশ ফটো বলতে কী বোঝ? আপনার অর্থ কি সেই ফাইলগুলি অভিন্ন, কেবল একটি অতিরিক্ত সময় বা দু'বার অনুলিপি করে বলুন? বা আপনার অর্থ এমন ফটো যা "দেখতে" একই রকম হয়।

যদি আপনি অভিন্ন ফাইলগুলি বোঝাতে চান তবে আপনি সমস্ত ফাইলগুলিতে 'শসুম' ব্যবহার করতে পারেন, তারপরে ফলাফলগুলি অর্ডার করতে পারেন এবং 'ইউনিক'-এর সাথে অনন্য লাইনগুলি খুঁজে পেতে পারেন এবং কী বাদ পড়েছে তা দেখতে' ডিফ 'চালান। একটি উবুন্টু শেল সব সহজ।


এর কোনটিই সহজ বা সুবিধাজনক নয়। নীচে উল্লিখিত fdupes কেবলমাত্র SHA গণনা করার চেয়ে আরও ভাল কাজ করবে। এখন কি ইউনিক্স সরঞ্জাম রয়েছে যা চিত্রের মিল খুঁজে পাবে? যদি তা হয় তবে তা দুর্দান্ত।
ফাস্টারজ

ইউনিক্স সরঞ্জামগুলি ব্যবহারে ব্যবহৃত কারও পক্ষে সহজ এবং সুবিধাজনক, যা ইউনিক, বাছাই, ডিফ, শসুম ইত্যাদি। তবে আমি সম্মত হই যে আপনি যদি এগুলি নিয়মিত ব্যবহার না করেন তবে সেগুলি ব্যবহার করা কঠিন। অ্যাপারচার এবং লাইটরুম সহ আমি যা দেখেছি সবকিছুই ফাইল-সম-অভিন্ন করে যা "সত্যই কেবল একটি এমডি 5 বা শসুম"
প্যাট

আমি নিয়মিত ইউনিক্স সরঞ্জাম ব্যবহার করি এবং আমি এই উত্তরটি কিছুটা নিরীহভাবে পাই। প্রথমত, কোনও ফাইল আকারের তুলনা যখন জিনিসগুলি সমাধান করে তখন অন্ধভাবে SHA করা ধীরে ধীরে। দ্বিতীয়ত, SHA বা MD5 সংঘর্ষ করতে পারে - সুতরাং SHA তুলনা কেবল একা যথেষ্ট নয় enough যদি আপনি এই দুটি ক্ষেত্রেই ফ্যাক্টর হন তবে আপনি fdupes কী করে তা পেতে পারেন।
ফাস্টারজ

এছাড়াও, একবার আপনি যখন সঠিকভাবে জ্বলনটি জাল করে ফেলেছেন তবে আউটপুটটি এখনও খুব কার্যকর নয়। সর্বোপরি আপনি fdupes এর আউটপুট পাবেন যা একই ধরণের ফাইলগুলির একটি মাত্র ডাম্প। আমার ক্ষেত্রে আমার দশ সহস্র রয়েছে এবং আমি কীভাবে নকলগুলি অপসারণ করতে পারি তা দেখার জন্য এই ডেটাটি নেওয়া খুব কঠিন।
ফাস্টারজ

1
এসএএএগুলি তত্ত্বের সাথে সংঘর্ষে লিপ্ত হয়, তবে বাস্তবে নয়। হ্যাঁ, এটি চিরকাল লাগে takes কিছুই যে কাজ করতে যাচ্ছে তা দ্রুত হতে চলেছে। তবে আপনার এটিকে লাথি মেরে সক্ষম হতে হবে এবং এক দু'দিনের মধ্যে ফিরে আসতে হবে। এটি কেবল একটি পরামর্শ, আমি এটি নিয়ে কোনও যুদ্ধে নামব না।
প্যাট ফারেল

0

"ব্লিচবিট" নামে একটি আবেদন রয়েছে, যা আকার, নাম এবং অন্যান্য ফিল্টার দ্বারা নকল ফাইলগুলি সন্ধান করে। আপনি এটি উবুন্টুতে সিনাপ্যাকটিক প্যাকেজ ম্যানেজার থেকে ইনস্টল করতে পারেন।


নকলগুলি একবার পেয়ে গেলে এটি কী করে? এটি কি কেবল একটি তালিকা প্রদর্শন করে? আমার কাছে কয়েক হাজার ডুপ্লিকেট রয়েছে এবং এগুলি সমাধানে সহায়তা করার জন্য একটি চমৎকার জিইউআই রয়েছে খুব কার্যকর would
ফাস্টারজ
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.