কীভাবে পিডিএফকে পাঠ্য অনুসন্ধানযোগ্য পিডিএফ রূপান্তর করবেন?


20

আমার পিডিএফ-তে বেশ কয়েকটি স্ক্যান নথি রয়েছে এবং আমি সেগুলি সন্ধান করতে সক্ষম হতে চাই। আমি এটা কিভাবে করবো?

মূলত আমাকে পিডিএফের ওসিআর করতে হবে এবং তারপরে এক্সট্রাক্ট করা টেক্সটটি নতুন পিডিএফ-তে মিশ্রিত করতে হবে। আমি ব্যর্থতার সাথে অনেকগুলি বিভিন্ন সমাধান ( পিডিএফ-তে ওসিআর তথ্য যুক্ত করার ক্ষেত্রে পাওয়া যায় এমন বিষয়গুলি সহ ) চেষ্টা করেছি।

  1. পিডিএফোকার (যা আমাকে এই সমস্যাটি দেয়: https://github.com/gkovacs/pdfocr/issues/7 )
  2. পিডিএফসানডউইচ (যার মধ্যে সফ্টওয়্যার কেন্দ্রটি এটি একটি দুর্বল প্যাকেজ এবং এটি আমার ইনস্টল করা উচিত নয়)
  3. OCRfeeder (সফ্টওয়্যার কেন্দ্রে) দুর্দান্তভাবে রফতানি করে, তবে পিডিএফ রফতানি করার সময় প্রতিক্রিয়া জানায় না।
  4. Gscan2pdf এই আলোচনায় বর্ণিত হিসাবে একটি সমস্ত কালো (তবে সন্ধানযোগ্য) চিত্র রফতানি করে ।
  5. আমার মনে হয় না পিডিএফএক্সচেঞ্জের ভিউয়ার 500 টি পৃষ্ঠার উপরে ফাইলগুলিতে ওসিআর করা পরিচালনা করতে পারে।

এমন কোন সফ্টওয়্যার প্যাকেজ কি আমি অবগত নই? বা একটি স্ক্রিপ্ট যে এটি করে?


3
আমি নিজে চেষ্টা করে দেখিনি, তবে আমি এই প্রকল্পটি অতীতে প্রস্তাবিত হতে দেখেছি ।
গ্লুটোনিমেট

আমি শুধু লিখেছি pdf2searchablepdf। এটি নির্ভর করে tesseract। এটি ভালই কাজ করে. ব্যবহারযোগ্য সুপার। এখানে দেখো. Askubuntu.com/a/1187881/327339
গ্যাব্রিয়েল স্ট্যাপলস

উত্তর:


12

উবুন্টু <16.04

গ্লুটানীমেটের মন্তব্য অনুসরণ করে আমি একটি কার্যকরী সমাধান খুঁজে পেয়েছি। এটি ওসিআরমিপিডিএফ স্ক্রিপ্ট

git clone https://github.com/jbarlow83/OCRmyPDF
cd OCRmyPDF
sh ./OCRmyPDF.sh -h  # to see the usage

আপনি যদি কোনও বার্তা পেয়ে থাকেন তবে আপনার GNU সমান্তরাল ইনস্টল করা উচিত। এটি করা যেতে পারে (নিম্নলিখিত /ubuntu//a/298598/115155 ) সহ (দ্বিতীয় লাইনটি isচ্ছিক এবং আপনার স্বাদ এবং সংস্করণের উপর নির্ভর করে):

sudo apt-get install parallel
sudo rm /etc/parallel/config

অবশেষে আপনি আদেশটি দিয়ে আপনার পিডিএফ ওসিআর করতে পারেন:

sh ./OCRmyPDF.sh input.pdf output.pdf  # change input and output to the files you want

যদি মনে হয় কমান্ডটি প্রতিক্রিয়াহীন, আপনি -vপতাকাটি ব্যবহার করে ভার্বোসিটি বাড়াতে পারেন (যা হিসাবে -vvবা ক্রমবর্ধমানভাবে ব্যবহার করা যেতে পারে -vvv)। সংক্ষিপ্ত পিডিএফ-এ প্রথমে ফলাফলগুলি পরীক্ষা করা ভাল। আপনি নিম্নলিখিত হিসাবে একটি পিডিএফ সংক্ষিপ্ত করতে পারেন:

pdftk A=input.pdf cat A1-5 output output.pdf

উবুন্টু> = 16.04

উবুন্টু 16.04 হিসাবে ওসিআরমিপিডিএফ অ্যাপের মাধ্যমে উপলব্ধ হয়েছে। শেষ ঘন্টা

sudo apt install ocrmypdf
ocrmypdf -h   # to see the usage

অবশেষে আপনি আদেশটি দিয়ে আপনার পিডিএফ ওসিআর করতে পারেন:

ocrmypdf input.pdf output.pdf  # change input and output to the files you want

যদি মনে হয় কমান্ডটি প্রতিক্রিয়াহীন, আপনি -vপতাকাটি ব্যবহার করে ভার্বোসিটি বাড়াতে পারেন (যা হিসাবে -vvবা ক্রমবর্ধমানভাবে ব্যবহার করা যেতে পারে -vvv)। সংক্ষিপ্ত পিডিএফ-এ প্রথমে ফলাফলগুলি পরীক্ষা করা ভাল। আপনি নিম্নলিখিত হিসাবে একটি পিডিএফ সংক্ষিপ্ত করতে পারেন:

pdftk A=input.pdf cat A1-5 output output.pdf

আপনার যদি কোনও প্রশ্ন থাকে তবে নতুন গিথুব রেপোতে একবার দেখুন


সমাধান করার জন্য আপনি কি আপনার উত্তরটি স্বীকার করবেন? (যাতে এটি উত্তরহীন তালিকায় না আসে)
নিবন্ধিত ব্যবহারকারী

শুধু sudo -H pip install git+https://github.com/jbarlow83/OCRmyPDFউবুন্টু 16,04 জন্য
মার্টিন Thoma

1
উবুন্টু 16.10 এবং তারপরের জন্য, আপনি ঠিক করতে পারেন sudo apt install ocrmypdf
এন্ডোলিথ

6

@ don.joey অক্রমিপডিএফ স্ক্রিপ্ট দিয়ে উত্তর দিয়েছে । তবে এটি এখনই ইনস্টল করা যেতে পারে (16.10 থেকে))

sudo apt install ocrmypdf

তারপরে আপনার নিজের প্রয়োজন অনুসারে পরীক্ষামূলক ভাষাগুলি ইনস্টল করতে হবে।

আপনার সিস্টেমে কোন ভাষা ইতিমধ্যে রয়েছে তা তালিকাভুক্ত করতে টাইপ করুন:

tesseract --list-langs

আপনি যদি কোনওটি মিস করেন তবে এটি ইনস্টল করুন। এই ক্ষেত্রে,

sudo apt install tesseract-ocr-spa

নিম্নলিখিত কমান্ডের সাহায্যে এখন আপনি অনুসন্ধানযোগ্য পিডিএফ তৈরি করতে পারেন (স্ক্যান করা নথির উপর নির্ভর করে যার গুণমানের পরিবর্তিত হবে)

ocrmypdf -l 'spa' old.pdf new.pdf

আপনি অবশ্যই কিছু অতিরিক্ত বিকল্পের জন্য এর ম্যান পৃষ্ঠাটি পরীক্ষা করতে পারেন।


আমার upotote স্যার আছে!
don.joey

4

pdfsandwichঠিক এই কাজ সম্পাদন করে। আমি জানতাম না যে সফ্টওয়্যার কেন্দ্রে একটি প্যাকেজ সরবরাহ করা হয়েছে তবে আমি প্রকল্পের ওয়েবসাইটে উবুন্টু ডেব প্যাকেজ সরবরাহ করছি ( বিশদ জানতে http://www.tobias-elze.de/pdfsandwich/ দেখুন), বর্তমানে অতি সাম্প্রতিক সংস্করণ (০.০.২) সহ, যা কোনও সফ্টওয়্যার কেন্দ্রে থাকার সম্ভাবনা নেই।

আপনার যদি স্ক্যান করা ফাইল থাকে তবে scanned_file.pdfকেবল কল করুন

pdfsandwich scanned_file.pdf

যা scanned_file_ocr.pdfস্ক্যান করা পৃষ্ঠাগুলিতে স্বীকৃত পাঠ্যের সাহায্যে ফাইল তৈরি করে ।

সর্বাধিক বিদ্যমান সমাধানগুলির সাথে তুলনা করে, এটি ইনস্টল করা টেসেরাক্ট সংস্করণটি স্বয়ংক্রিয়ভাবে আবিষ্কার করে এবং সে অনুযায়ী তার আচরণটি গ্রহণ করে। এছাড়াও, এটি ওসিআর প্রক্রিয়া পূর্বে স্ক্যান করা ইমেজগুলির প্রাক-প্রসেসিং সম্পাদন করে, যেমন ডি-স্কিউং বা অন্ধকার প্রান্তগুলি অপসারণ ইত্যাদি, যা অপটিক্যাল চরিত্রের স্বীকৃতিতে যথেষ্ট উন্নতি করতে পারে।

অস্বীকৃতি: আমি বিকাশকারী pdfsandwichএবং অতএব ভারী পক্ষপাতদুষ্ট।


এটি দুর্দান্ত শোনায়, তবে কেন পিডিএফসানডউইচ সংস্করণ 0.1.4 ইনস্টল করে আপনি উবুন্টু 16.04-এ প্রতিটি চরিত্রকে কালো আয়তক্ষেত্রে রূপান্তরিত করবেন?
ভ্যালেন্টাস

1
এ সম্পর্কে উত্তর দেওয়া শক্ত নয় answer প্রথমত, আমি সরঞ্জামটির আরও একটি সাম্প্রতিক সংস্করণ ব্যবহার করার পরামর্শ দিচ্ছি। বর্তমান সংস্করণ 0.1.6। আপনি ওয়েবসাইটে উবুন্টুর জন্য প্যাকেজগুলি সন্ধান করতে পারেন। দ্বিতীয়ত, যদি এটি সহায়তা না করে, আপনি আরও বিশদ পেতে বিকল্পটি ব্যবহার করতে পারেন এবং বাগ রিপোর্ট ফাইল করতে এই বিবরণগুলি ব্যবহার করতে পারেন।
টোবিয়াস এলজে

আমার জন্য কয়েক ইস্যু। রূপান্তর: সুরক্ষা নীতি দ্বারা অনুমোদিত নয় একটি অপারেশন সম্পাদনের প্রচেষ্টা attempt পিডিএফ '@ ত্রুটি / সংবিধান.সি. / ইসকোডার অনুমোদিত / 408। সুতরাং আমাকে ইমেজমাগিক.আর.সি.সিপি / ইনস্টল- সোর্স.এসপিপি থেকে উত্স থেকে ডাউনলোড করা উত্স থেকে চিত্রগ্রাহক ইনস্টল করতে হয়েছিল তখন আমি ভাগ করে নেওয়া লাইব্রেরিগুলি লোড করার সময় ত্রুটি পেয়েছি: libMagickCore-7.Q16HDRI.so.6: ভাগ করা অবজেক্ট ফাইলটি খুলতে পারে না: "এরকম নেই ফাইল বা ডিরেক্টরি "" এবং এই সমাধানটি 'sudo ldconfig / usr / local / lib' চিত্রের ম্যাগাজিক সংস্করণ 7.0.8-56 দ্বারা 'সনাক্তকরণ-রূপান্তর' দ্বারা পেয়ে কাজ করে।
পিয়েরলি

আপনি যদি পিডিএফস পরিচালনা বা ছাঁটাইয়ের পরিকল্পনা করেন তবে এই ব্যবহারগুলি যুক্ত করার উপযুক্ত হতে পারে। বাম এবং ডান পৃষ্ঠাগুলি বিভক্ত করার জন্য পিডিএফশফলার (২ পার্শ্বযুক্ত মূল) ২ পিডিএফটক পিডিএফ চেইন পিডিএফটক (একটি জার ফাইল হিসাবে) পৃথকভাবে এবং বিজোড় পৃষ্ঠাগুলিতে পৃথক করে: ৪ পৃষ্ঠাগুলি ছাঁটাতে পিডিএফকুঞ্চ - আমারও গিরআর দরকার। 2-গোকানভাস -২.০ গির ১.২-পপ্প্লার -১.০৮ পাইথন-পাইগোকানভাস পাইথন-পপ্প্লার পাইথন-পিপডিএফ 2। পিডিএফসানডউইচ একটি ট্রিট কাজ করেছিলেন, ফাইলের আকারও 10 এক্স দ্বারা হ্রাস করেছেন। ধন্যবাদ। উবুন্টু 19.04 এছাড়াও পিডিএফসাম বিভক্ত এবং মার্জ করতে, জাভা জার ফাইল হিসাবে ডাউনলোডের পরে চালানোর জন্য
পিয়ারলি

0

ওসিআরফিডারের একটি বাগ রয়েছে

/usr/lib/python2.7/dist-packages/reportlab/pdfgen/textobject.py

436 লাইনটি পড়তে হবে:

            lines = asUnicode(stuff).strip().split('\n')
# bug here, was:
#            lines = '\n'.split(asUnicode(stuff).strip())

এটি বদলেছে এবং এটি আমার পক্ষে কাজ করেছে


0

ওএস: উবুন্টু 18.04

প্রথমে এর tesseract-ocrসাথে ইনস্টল করুন :

apt-cache show tesseract-ocr
sudo apt-get update && sudo apt-get upgrade
apt-get install tesseract-ocr --print-uris
apt-get install tesseract-ocr
sudo !!

আপনি যদি পরীক্ষার সাহায্যে ইংরেজি ব্যতীত অন্য কোনও ভাষা ব্যবহার করতে চলেছেন তবে আপনাকে সংশ্লিষ্ট লেগেজ প্যাকেজটি ইনস্টল করতে হবে। উদাহরণস্বরূপ পর্তুগিজদের জন্য, আপনার এটি করতে হবে:

sudo apt-get install tesseract-ocr-por

অন্যথায় আপনি ত্রুটি পাবেন:

Error opening data file /usr/share/tesseract-ocr/4.00/tessdata/por.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to your 
"tessdata" directory.
Failed loading language 'por'
Tesseract couldn't load any languages!
Could not initialize tesseract.

যদি আপনি "পিডিএফ পরীক্ষামূলক" করেন গুগল আপনি সম্ভবত এটি কিছুটা পুরানো পোস্ট পাবেন । তবে এটি আপনাকে কিছু কার্যকর ইঙ্গিত দেয়। আপনাকে প্রথমে আপনার .pdfফাইলটিকে .tiffএকটিতে রূপান্তর করতে হবে। চালান:

convert -density 125 originalfile.pdf -depth 8 -alpha Off newfile.tiff

পুরানো পোস্টের মতো, আপনি যুক্ত করতে ভুলে alpha -Offগেলে, আপনি নিম্নলিখিত ত্রুটিটি পাবেন:

Tesseract Open Source OCR Engine v4.0.0-beta.1 with Leptonica
Error in pixReadFromTiffStream: spp not in set {1,3,4}

এখন আপনি চূড়ান্ত কমান্ড চালাতে পারেন। আপনার মূল পিডিএফ পর্তুগিজ ভাষায় রয়েছে সেই ক্ষেত্রে আপনার এই কমান্ডটি লাগবে:

tesseract -l por newfile.tiff output pdf 

উত্পন্ন ফাইলটির নাম দেওয়া হবে output.pdf। উদাহরণস্বরূপ, যদি আপনার পিডিএফটি ফরাসী ভাষায় থাকে তবে আপনি সংশ্লিষ্টটি ইনস্টল করার পরে আপনি tesseract-ocr-fraচালনা করবেন:

tesseract -l fra newfile.tiff output pdf 

এবং পছন্দসই ফাইল আবার হবে output.pdf,।


0

আমার একই সমস্যা ছিল তাই আমি সপ্তাহান্তে এটি লিখেছিলাম। ইহাকে একটি লাথি দাও; এটা দুর্দান্ত কাজ! এটি চারপাশে একটি সাধারণ মোড়ক tesseract। এটি pdftoppmপিডিএফটিকে টিআইএফএফ ফাইলগুলিতে একগুচ্ছ রূপান্তর করতে ব্যবহার করে, তারপরে এটি tesseractওসিআর (অপটিক্যাল ক্যারেক্টার রিকগনিশন) সম্পাদন করে এবং আউটপুট হিসাবে অনুসন্ধানযোগ্য পিডিএফ উত্পাদন করে। স্ক্রিপ্টটি সম্পূর্ণ হলে সমস্ত মধ্যবর্তী অস্থায়ী ফাইলগুলি স্বয়ংক্রিয়ভাবে মোছা হয়।

উত্স কোড: https://github.com/E લેક્ટricRCAircraftGuy/ PDF2 অনুসন্ধানযোগ্য পিডিএফ

ইনস্টল ও ব্যবহারের নির্দেশাবলী pdf2searchablepdf:

11 নভেম্বর 2019-তে উবুন্টু 18.04 এ পরীক্ষা করা হয়েছে।

ইনস্টল করুন:

git clone https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF.git
./PDF2SearchablePDF/install.sh
sudo apt update
sudo apt install tesseract-ocr

ব্যবহার করুন:

pdf2searchablepdf mypdf.pdf

আপনার কাছে এখন mypdf_searchable.pdf নামে একটি পিডিএফ থাকবে , এতে সন্ধানযোগ্য পাঠ্য রয়েছে!

সম্পন্ন. মোড়কের কোনও পাইথন নির্ভরতা নেই, কারণ এটি বর্তমানে পুরোপুরি ব্যাশে লেখা রয়েছে।

তথ্যসূত্র বা সম্পর্কিত সংস্থানসমূহ:

  1. পিডিএফ 2 অনুসন্ধানযোগ্য পিডিএফ : https://github.com/E લેક્ટricRCAircraftGuy / PDF2 অনুসন্ধানযোগ্য পিডিএফ
  2. কীভাবে পিডিএফকে পাঠ্য অনুসন্ধানযোগ্য পিডিএফ রূপান্তর করবেন?
  3. সবচেয়ে ভাল, সহজ ওসিআর সমাধান কী?
  4. একটি পিডিএফ থেকে এমবেড করা চিত্রগুলি বের করা
  5. পিডিএফসানডউইচ : আমি সন্ধান করেছি বিকল্প সফটওয়্যার র‌্যাপার, এটিও পরীক্ষা করে দেখার মতো! http://www.tobias-elze.de/pdfsandwich/
  6. /unix/301318/how-to-ocr-a-pdf-file-and-get-the-text-stored-within-pdf/551526#551526
  7. [কীভাবে পিডিএফকে চিত্রের একগুচ্ছ রূপে রূপান্তর করবেন pdftoppm] একটি পিডিএফ থেকে এমবেড করা চিত্রগুলি বের করে নেওয়া
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.