আমার পিডিএফ-তে বেশ কয়েকটি স্ক্যান নথি রয়েছে এবং আমি সেগুলি সন্ধান করতে সক্ষম হতে চাই। আমি এটা কিভাবে করবো?
মূলত আমাকে পিডিএফের ওসিআর করতে হবে এবং তারপরে এক্সট্রাক্ট করা টেক্সটটি নতুন পিডিএফ-তে মিশ্রিত করতে হবে। আমি ব্যর্থতার সাথে অনেকগুলি বিভিন্ন সমাধান ( পিডিএফ-তে ওসিআর তথ্য যুক্ত করার ক্ষেত্রে পাওয়া যায় এমন বিষয়গুলি সহ ) চেষ্টা করেছি।
- পিডিএফোকার (যা আমাকে এই সমস্যাটি দেয়: https://github.com/gkovacs/pdfocr/issues/7 )
- পিডিএফসানডউইচ (যার মধ্যে সফ্টওয়্যার কেন্দ্রটি এটি একটি দুর্বল প্যাকেজ এবং এটি আমার ইনস্টল করা উচিত নয়)
- OCRfeeder (সফ্টওয়্যার কেন্দ্রে) দুর্দান্তভাবে রফতানি করে, তবে পিডিএফ রফতানি করার সময় প্রতিক্রিয়া জানায় না।
- Gscan2pdf এই আলোচনায় বর্ণিত হিসাবে একটি সমস্ত কালো (তবে সন্ধানযোগ্য) চিত্র রফতানি করে ।
- আমার মনে হয় না পিডিএফএক্সচেঞ্জের ভিউয়ার 500 টি পৃষ্ঠার উপরে ফাইলগুলিতে ওসিআর করা পরিচালনা করতে পারে।
এমন কোন সফ্টওয়্যার প্যাকেজ কি আমি অবগত নই? বা একটি স্ক্রিপ্ট যে এটি করে?
pdf2searchablepdf
। এটি নির্ভর করে tesseract
। এটি ভালই কাজ করে. ব্যবহারযোগ্য সুপার। এখানে দেখো. Askubuntu.com/a/1187881/327339