পিডিফোটটেক্সটটি সাফল্য না পাওয়ার কারণটি হতে পারে পিডিএফটি চিত্রগুলি স্ক্যান করা হয় এবং আপনার ওসিআর করা দরকার, আমি pdfএমন সবগুলি অনুসন্ধান করার জন্য একটি দ্রুত উপায় লিখেছিলাম যা এডিট করা যায় না grepএবং সেগুলিকে ওসিআর করতে পারে ।
আমি লক্ষ্য করেছি যে কোনও pdfফাইলের কোনও ফন্ট না থাকলে এটি সাধারণত অনুসন্ধানযোগ্য নয় cha এটি জেনে আমরা ব্যবহার করতে পারি pdffonts।
এর প্রথম 2 লাইনগুলি pdffontsহ'ল টেবিল শিরোনাম, সুতরাং যখন কোনও ফাইল অনুসন্ধানযোগ্য হয় তখন দুটি লাইন আউটপুট থাকে, এটি জেনে আমরা তৈরি করতে পারি:
gedit check_pdf_searchable.sh
এটি আটকান
#!/bin/bash
#set -vx
if ((`pdffonts "$1" | wc -l` < 3 )); then
echo $1
ocrmypdf "$1" "$1"_ocr.pdf
fi
তারপরে এটি কার্যকর করা যায়
chmod +x check_pdf_searchable.sh
তারপরে ডিরেক্টরিতে সমস্ত অ-অনুসন্ধানযোগ্য পিডিএফ তালিকাভুক্ত করুন:
ls -1 ./*.pdf | xargs -L1 -I {} ./check_pdf_searchable.sh {}
বা ডিরেক্টরি এবং এর উপ ডিরেক্টরিতে:
tree -fai . | grep -P ".pdf$" | xargs -L1 -I {} ./check_pdf_searchable.sh {}
আপনাকেও ইনস্টল করতে হবে:
sudo apt install ocrmypdf