পিডিফোটটেক্সটটি সাফল্য না পাওয়ার কারণটি হতে পারে পিডিএফটি চিত্রগুলি স্ক্যান করা হয় এবং আপনার ওসিআর করা দরকার, আমি pdf
এমন সবগুলি অনুসন্ধান করার জন্য একটি দ্রুত উপায় লিখেছিলাম যা এডিট করা যায় না grep
এবং সেগুলিকে ওসিআর করতে পারে ।
আমি লক্ষ্য করেছি যে কোনও pdf
ফাইলের কোনও ফন্ট না থাকলে এটি সাধারণত অনুসন্ধানযোগ্য নয় cha এটি জেনে আমরা ব্যবহার করতে পারি pdffonts
।
এর প্রথম 2 লাইনগুলি pdffonts
হ'ল টেবিল শিরোনাম, সুতরাং যখন কোনও ফাইল অনুসন্ধানযোগ্য হয় তখন দুটি লাইন আউটপুট থাকে, এটি জেনে আমরা তৈরি করতে পারি:
gedit check_pdf_searchable.sh
এটি আটকান
#!/bin/bash
#set -vx
if ((`pdffonts "$1" | wc -l` < 3 )); then
echo $1
ocrmypdf "$1" "$1"_ocr.pdf
fi
তারপরে এটি কার্যকর করা যায়
chmod +x check_pdf_searchable.sh
তারপরে ডিরেক্টরিতে সমস্ত অ-অনুসন্ধানযোগ্য পিডিএফ তালিকাভুক্ত করুন:
ls -1 ./*.pdf | xargs -L1 -I {} ./check_pdf_searchable.sh {}
বা ডিরেক্টরি এবং এর উপ ডিরেক্টরিতে:
tree -fai . | grep -P ".pdf$" | xargs -L1 -I {} ./check_pdf_searchable.sh {}
আপনাকেও ইনস্টল করতে হবে:
sudo apt install ocrmypdf