একটি পিডিএফ-তে ওসিআর তথ্য যুক্ত করা হচ্ছে


28

আমার কাছে একটি নথির ভাল মানের স্ক্যান রয়েছে; যেমন স্ক্যান পিডিএফ ফর্ম্যাটে হয়।

আমি পিডিএফ-তে কীভাবে ওসিআর তথ্য যুক্ত করতে পারি, যাতে এটি অনুসন্ধানযোগ্য হয়? সন্ধানযোগ্য দ্বারা আমি বুঝাতে চাইছি যে লক্ষ্যটি হ'ল পিডিএফটিকে স্পষ্টভাবে দেখার সাথে সাথে, সিটিআরএল-এফ আসলে পিডিএফ বিষয়বস্তু অনুসন্ধান করার অনুমতি দেয়।



4
@ জাকোব, আমি মনে করি না এটি একটি দাপু, আমরা বিভিন্ন জিনিস জিজ্ঞাসা করছি। অন্য প্রশ্নটি কিছু পিডিএফ থেকে পাঠ্য আহরণ সম্পর্কে (অর্থাত্ সম্পর্কিত টিএসটি ফাইলগুলি উত্পন্ন করা), যখন আমার প্রশ্নটি ওসিআর তথ্য যুক্ত করার জন্য পিডিএফ সংশোধন করার এবং পিডিএফ রিডারটিতে অনুসন্ধানের কাজটি করার বিষয়ে। আমি প্রশ্নটি পরিষ্কার করব।
fdierre

আপনি কীভাবে এবং কীভাবে দস্তাবেজটি স্ক্যান করতে ব্যবহার করেছেন?
মিচ

@ মিচ আমি আমার অফিসে রিকো আফিকো এমপি-সি 2500 প্রিন্টার / কপিয়ার / স্ক্যানার ব্যবহার করেছি, যার একটি খুব সুন্দর ডকুমেন্ট ফিডার রয়েছে। :-)
fdierre

স্ক্যানিং এবং / অথবা ওসিআর সফ্টওয়্যার?
মিচ

উত্তর:


21

pdfsandwich

আপনি যা চান তা করে এবং উবুন্টু ডিবে প্যাকেজ সরবরাহ করে। এটি ওসিআর ইঞ্জিন হিসাবে পরীক্ষামূলক ব্যবহার করে। নিম্নলিখিত কলটি আপনার স্ক্যান করা পিডিএফটিতে পাঠ্য স্তর যুক্ত করে:

pdfsandwich scanned.pdf

নিম্নলিখিতগুলি একই কাজ করে তবে অন্য ভাষা (আইএসও 63৩৯-২ কোড, ডাউনলোড tesseract-ocr-LANGCODEপ্যাকেজ) এবং লেআউটটি সেট করে:

pdfsandwich  -verbose -lang spa -layout single scanned.pdf

আপনি যদি কোনও ত্রুটি পান তবে সোর্সফোর্জ থেকে সর্বশেষ সংস্করণ দেবটি ডাউনলোড করুন

দাবি অস্বীকার : আমি পিডিএফসানডউইচের বিকাশকারী এবং তাই স্পষ্টতই পক্ষপাতদুষ্ট।


6
এটি সত্যিই দুর্দান্ত, আপনাকে ধন্যবাদ। যাইহোক, এটি চিত্রগুলি সংশোধন করে দেখা যাচ্ছে, দেখে মনে হচ্ছে এটি তাদের বা কোনও কিছুতে একটি অসম্পূর্ণ মুখোশ চালায়। চিত্রগুলি যেমন ছিল ঠিক ঠিক তেমনি রেখে যাওয়ার কি কোনও উপায় আছে? আমার বিশেষ উদাহরণে, ফিল্টার এমনকি কিছু সমীকরণের কয়েকটি ভগ্নাংশ থেকে বার সরাতে সক্ষম হয়েছিল। অন্য সব কিছু যদিও বেশ ভালভাবে কাজ করে ...
naught101

খারাপ মানের প্যাকেজ: `/tmp/pdfsandwich_0.1.3_amd64.deb: E: pdfsandwich: কন্ট্রোল-ফাইল-খারাপ-অনুমতি রয়েছে md5sums 0664! = 0644 ই: পিডিএফসানডভিচ: নিয়ন্ত্রণ ফাইল-এর-খারাপ-মালিক এমডি 5সামস জেমস / জেমস! = রুট / মূল ই: পিডিএফসানডউইচ: ভুল-ফাইল-মালিক-ইউডি-বা-জিড ইউএসআর / 1000/1000 ই: পিডিএফসানডউইচ: ভুল-ফাইল-মালিক-ইউআইডি-বা-জিড ইউএসআর / বিন / 1000 / 1000 ই: পিডিএফসানডউইচ: ভুল-ফাইল-মালিক-ইউআইডি-বা-গিড ইউএসআর / বিন / পিডিএফসানডউইচ ...
এবি

এসএফ থেকে শেষ সংস্করণ দেব ডাউনলোড করুন । আপনি যদি শেষে কোনও ত্রুটি পান তবে এটি ভুত স্ক্রিপ্টের সাথে সম্পর্কিত হতে পারে (v0.1.4)। এখন v0.1.6 ব্যবহার করে pdfunite
পাবলো এ

1
@ পাবলোবিয়ানচি ওসিআরড পাঠ্যের ম্যানুয়াল প্রুফরিডিংয়ের কোনও উপায় আছে কি pdfsandwitch? আমি কিছু সুইডিশ ডকুমেন্ট দিয়ে এটি করছি, এবং এটি কিছু ভাল বানান বাদ দিয়ে (সম্ভবত মূল ফন্টের কারণে) এগুলি ভালভাবে কাজ করে যা এটি কোনও টেক্সট ফাইল হলে এটি ঠিক করা সহজ হত তবে আমি কীভাবে ফলাফল পিডিএফে এটি করতে পারি? ?
zrajm

@ জরাজম আপনি ওসিআর ধাপে আরও ভাল স্বীকৃতির জন্য পিডিএফসানডউইচ প্যারামিটারগুলির কিছু ব্যবহার করতে পারেন । চিত্রের পিছনে লুকানো পাঠ্য সম্পাদনা করতে আপনি কেবলমাত্র লিবারঅফিস ড্র, ইনস্কেপ বা কোনও পিডিএফ সম্পাদনা সরঞ্জাম দিয়ে পাঠ্য বাক্স স্তর সম্পাদনা করতে পারেন । আপনি যদি আরও ভাল উপায় খুঁজে পান তবে দয়া করে এটি এখানে পোস্ট করুন। দহ জিমেজ!
পাবলো এ


4

আমি একটি অ-আদর্শ সমাধান খুঁজে পেয়েছি, তবে খুব কার্যকর one

আমি ওয়াইনের মাধ্যমে পিডিএফ এক্স-চেঞ্জ ভিউয়ার ব্যবহার করি । এটিতে একটি ওসিআর বৈশিষ্ট্য রয়েছে যা বিদ্যমান চিত্র-ভিত্তিক পিডিএফটিতে একটি পাঠ্য স্তর যুক্ত করে।

এইভাবে আপনি এই অদৃশ্য স্তর থেকে পাঠ্যটি সন্ধান এবং অনুলিপি করতে পারবেন।

এখানে চিত্র বর্ণনা লিখুন


2

কমান্ড লাইন সমাধানের জন্য, আপনি পিডিএফোকার ব্যবহার করতে পারেন ।

সংক্ষেপে, সফ্টওয়্যার ইনস্টল করুন:

$ sudo apt-get install python-software-properties
$ sudo add-apt-repository ppa:gezakovacs/pdfocr
$ sudo apt-get update
$ sudo apt-get install pdfocr

তারপরে পিডিফোকার চালান:

$ pdfocr -i scanned.pdf -o scanned.with.search.pdf

উবুন্টু 12.04 এলটিএসে এটি আমার জন্য কাজ করেছিল।


6
গিথুব এখানে: github.com/gkovacs/pdfocr । এটির মূল সমস্যাটি pdfsandwichহ'ল মূল চিত্রের কিছু তথ্য নষ্ট করে উচ্চতর চিত্রযুক্ত পিডিএফ সংশোধন / সংকুচিত করার সাথে একই সমস্যা রয়েছে ।
jmiserez

2

একটি সমাধান যা সহজেই প্রয়োগযোগ্য এবং একই মানের ইনপুট ফাইলের সাথে যুক্তিসঙ্গত আকারের আউটপুট পিডিএফ সরবরাহ করে তা হ'ল ওসিআরমিপিডিএফ:

https://github.com/jbarlow83/OCRmyPDF


আপনার স্ক্রিপ্টের সাথে আমি দুর্দান্ত ফলাফল পেয়েছি। গিজা কোভ্যাক্সের পিডিফোকারের বিপরীতে, এটির জন্য কোনও অতিরিক্ত (কিছু লিনাক্স ডিস্ট্রোগুলিতে সংকলন করা শক্ত নয়!) লাইব্রেরির প্রয়োজন নেই। ধন্যবাদ!
ম্যাক্সিম

0

এটা আমার দ্রুত এবং ময়লা সমাধান করে ImageMagick এর উপর ভিত্তি করে convert, tesseract, parallelএবং pdftk(সমস্ত ডেবিয়ান ভিত্তিক ডিস্ট্রিবিউশন উপলব্ধ)। এটি মূলত এই ব্লগ পোস্টের উপর ভিত্তি করে ।

#!/bin/sh -ex

density=${2:-"300"} # default to 300 DPI if 2nd parameter is not given

convert -monitor -density "$density" "$1" -monochrome -compress lzw -alpha deactivate page_%05d.tif
parallel --bar "tesseract {} {.} pdf 2>/dev/null" ::: page_*.tif
pdftk page_*.pdf cat output "${1%.*}-ocred.pdf" compress

# Cleanup temp files
rm page_?????.tif page_?????.pdf

0

পিপিএম ফাইল সহ পুরো ডিরেক্টরিতে আপনি এই স্ক্রিপ্টটি পিএমপি 2ocrpdf.sh ব্যবহার করতে পারেন

#!/bin/sh

mkdir .pdf
for f in *.ppm; do
    echo " Running convert -compress JPEG -quality 88 "$f" -page a4 "$f"ppm.pdf"
    convert -compress JPEG -quality 88 "$f" -page a4 "$f"ppm.pdf
    echo " Running tesseract -l deu "$f" "$f" pdf"
    tesseract -l deu "$f" "$f" pdf
    echo " Running pdftk "$f".pdf cat output ./.pdf/"$f"ocr.pdf"
    pdftk "$f".pdf cat output ./.pdf/"$f"ocr.pdf
    echo " Running rm "$f"ppm.pdf"
    rm "$f"ppm.pdf
    echo " Running rm "$f".pdf"
    rm "$f".pdf
done
echo " Running pdftk *.pdf cat output ../outdocument.pdf"
pdftk ./.pdf/*.pdf cat output outOcrDocument.pdf
echo " Running rm ./.pdf/*.pdf"
rm ./.pdf/*.pdf
echo " Running rmdir .pdf"
rmdir .pdf
echo "Done"
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.