কীভাবে একটি পিডিএফ ফাইল ওসিআর করবেন এবং পিডিএফ-র মধ্যে পাঠ্যটি সংরক্ষণ করবেন?


23

প্রথমত, যদি এর আগে জিজ্ঞাসা করা হয়েছিল তবে দুঃখিত - আমি বিদ্যমান পোস্টগুলির মাধ্যমে কিছুক্ষণ অনুসন্ধান করেছি, তবে সমর্থন খুঁজে পাইনি।

আমি ফেডোরার একটি মাল্টিপেজ অ-অনুসন্ধানযোগ্য পিডিএফ-এর ওসিআর করার জন্য এবং এই পিডিএফটিকে একটি নতুন পিডিএফ ফাইলে রূপান্তর করতে আগ্রহী যা চিত্রটির উপরে পাঠ্য স্তরটি অন্তর্ভুক্ত করে। ম্যাক ওএসএক্স বা উইন্ডোজে আমরা অ্যাডোব অ্যাক্রোব্যাট ব্যবহার করতে পারি, তবে লিনাক্সে, বিশেষত ফেডোরায়?

https://snippets.webaware.com.au/howto/pdf-ocr-linux/ একটি সমাধান বর্ণনা করেছে বলে মনে হচ্ছে - তবে দুর্ভাগ্যক্রমে সঠিক চিত্রটি পুনরুদ্ধার করার সময় আমি ইতিমধ্যে হারিয়ে গিয়েছি।


চমৎকার পিডিফোক্রি স্ক্রিপ্টের সাথে একটি সমস্যা রয়েছে যা আপনি যে পৃষ্ঠার সাথে লিঙ্ক করছেন এটি সুপারিশ করেছে: এটি পিডিএফটেকের উপর নির্ভর করে যা মূলত অবমূল্যায়ন করা হয়েছে (দুটি কারণে, এটি লিবিজিসিজে এবং আইটেক্সট 5 + এর উপর নির্ভরশীল)। সুতরাং যাইহোক যাইহোক একটি পৃথক সমাধান প্রয়োজন ...
ম্যাক্সিম

উত্তর:


24

সবচেয়ে ভাল ও সহজ উপায় হ'ল pypdfocrএটি পিডিএফ পরিবর্তন করে না use পাইপডফোকার একটি পাইথন মডিউল লিঙ্ক এখানে।

pypdfocr your_document.pdf

শেষে আপনি your_document_ocr.pdfঅনুসন্ধানযোগ্য পাঠ্যের সাহায্যে এটি অন্যভাবে চাইবেন। অ্যাপ্লিকেশনটি চিত্রের মান পরিবর্তন করে না। ওভারলে লেখাটি যুক্ত করে ফাইলের আকারটি কিছুটা বাড়ায়।

আমি মনে করি কমান্ডটি খুব সহজ যে এটির জন্য কোনও জিইউআইয়ের দরকার নেই। সম্ভবত পাইপফোকার ইনস্টল করা কিছুটা ভার্জোজ:

sudo dnf -y install tesseract 
pip install pypdfocr 

3 য় নভেম্বার 2018 আপডেট করুন:

pypdfocr২০১ since সালের পরে আর সমর্থিত নয় এবং মানসিক না হওয়ার কারণে আমি কিছু সমস্যা লক্ষ্য করেছি। ocrmypdf( মডিউল ) একটি অচেনা কাজ করে এবং এটি ব্যবহার করা যেতে পারে:

ocrmypdf in.pdf out.pdf

স্থাপন করা:

pip install ocrmypdf

অথবা

sudo apt install ocrmypdf  #ubuntu
sudo dnf -y install ocrmypdf #fedora

আপনি উবুন্টুতে কেন (অ্যাপটি ব্যবহার করে) অক্রমিপডিএফ ইনস্টল করবেন তবে ফেডোরায় টেসারাক্ট ইনস্টল করবেন? আমি মনে করি আপনি টাইপ করেছেন
iuridiniz

@ আইরিডিনিজ এটি ঠিক করে দিয়েছে। এটি ভুল হয়ে গিয়েছিল
এডুয়ার্ড ফ্লোরিয়েন্সু

8

পরীক্ষাগুলি এখন অনুসন্ধানযোগ্য পিডিএফও তৈরি করতে পারে তা শিখার পরে, আমি স্যান্ডউইচ স্ক্রিপ্টটি পেয়েছি: http://www.tobias-elze.de/pdfsandwich/

নির্ভরতা ইনস্টল করার পরে (এটি সম্পূর্ণ তালিকা হতে পারে না)

sudo dnf install svn ocaml unpaper tesseract

উত্স থেকে সংকলনের জন্য আমি স্ক্রিপ্টের গাইড অনুসরণ করেছি

উত্স থেকে সংকলন

পিডিএফসানডউইচ ওপেন সোর্স সফটওয়্যার (লাইসেন্স: জিপিএল)। আপনি প্রকল্পের ওয়েবসাইটে ডাউনলোড অঞ্চল থেকে .tar.bz2 প্যাকেজ হিসাবে উত্সগুলি ডাউনলোড করতে পারেন বা বিবর্তনের মাধ্যমে তাদের পরীক্ষা করে দেখতে পারেন:

svn checkout svn://svn.code.sf.net/p/pdfsandwich/code/trunk/src pdfsandwich

যদি ওসিএএমএল আপনার সিস্টেমে ইনস্টল করা থাকে তবে আপনি নিম্নলিখিত হিসাবে সংকলন এবং ইনস্টল করতে পারেন:

cd pdfsandwich
./configure
make
sudo make install

এবং এটি এখন আমাকে চালানোর অনুমতি দেয়

sandwich multipaged-non-searchable.pdf

অনুসন্ধানযোগ্য পিডিএফ এর ফলস্বরূপ।


সম্পর্কিত, তবে পৃথক প্রশ্নের জন্য, এটির
প্রশ্নগুলি /

1
এফডাব্লুআইডাব্লু: পিডিএফসানডউইচ উবুন্টুর অ্যাপ প্যাকেজ সংগ্রহস্থলেও উপলব্ধ। অন্যান্য ডিস্ট্রোদেরও এটি থাকতে পারে।
লরেন্স গনসাল্ভেস


শুধু জুড়ে এসেছিল fedoramagazine.org/4-cool-new-projects-try-copr-october-2018 ফেডোরা জন্য COPR প্যাকেজ প্যাকেজ pdfsandwich দেখাচ্ছে
ingli

3

উবুন্টুতে উপলব্ধ একটি সহজ সরঞ্জাম হ'ল 'ocrfeeder' এটি মূল নথিতে ওসিআর পাঠ্য সহ পিডিএফ প্রজন্মের অনুমতি দেয়। এটি টেসারেক্ট প্লাসের সাথে অন্যান্য ওসিআর ইঞ্জিনগুলি ব্যবহার করে (কোনটি নিশ্চিত নয়) এবং পাশাপাশি চিত্রের আবর্তন / 'আনপ্রেটার' ইত্যাদি সরবরাহ করে।


1

আমার একই সমস্যা ছিল তাই আমি সপ্তাহান্তে এটি লিখেছিলাম। ইহাকে একটি লাথি দাও; এটা দুর্দান্ত কাজ! এটি চারপাশে একটি সাধারণ মোড়ক tesseract। এটি pdftoppmপিডিএফটিকে টিআইএফএফ ফাইলগুলিতে একগুচ্ছ রূপান্তর করতে ব্যবহার করে, তারপরে এটি tesseractওসিআর (অপটিক্যাল ক্যারেক্টার রিকগনিশন) সম্পাদন করে এবং আউটপুট হিসাবে অনুসন্ধানযোগ্য পিডিএফ উত্পাদন করে। স্ক্রিপ্ট সম্পূর্ণ হয়ে গেলে সমস্ত মধ্যবর্তী অস্থায়ী ফাইল স্বয়ংক্রিয়ভাবে মোছা হয়।

উত্স কোড: https://github.com/E લેક્ટricRCAircraftGuy/ PDF2 অনুসন্ধানযোগ্য পিডিএফ

ইনস্টল ও ব্যবহারের নির্দেশাবলী pdf2searchablepdf:

11 নভেম্বর 2019-তে উবুন্টু 18.04 এ পরীক্ষিত।

ইনস্টল করুন:

git clone https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF.git
./PDF2SearchablePDF/install.sh

sudo apt update
sudo apt install tesseract-ocr

ব্যবহার করুন:

pdf2searchablepdf mypdf.pdf

আপনার কাছে এখন mypdf_searchable.pdf নামে একটি পিডিএফ থাকবে , এতে সন্ধানযোগ্য পাঠ্য রয়েছে!

সম্পন্ন. এটির কোনও পাইথন নির্ভরতা নেই, কারণ এটি বর্তমানে সম্পূর্ণরূপে ব্যাশে লেখা রয়েছে।

তথ্যসূত্র বা সম্পর্কিত সংস্থানসমূহ:

  1. পিডিএফ 2 অনুসন্ধানযোগ্য পিডিএফ : https://github.com/E લેક્ટricRCAircraftGuy / PDF2 অনুসন্ধানযোগ্য পিডিএফ
  2. /ubuntu/473843/how-to-turn-a-pdf-into-a-text-searchable-pdf/1187881#1187881
  3. /ubuntu/16268/whats-the-best-simplest-ocr-solution
  4. /ubuntu/150100/extracting-embedded-images-from-a-pdf/1187844#1187844
  5. পিডিএফসানডউইচ : আমি সন্ধান করেছি বিকল্প সফটওয়্যার র‌্যাপার, এটিও পরীক্ষা করে দেখার মতো! http://www.tobias-elze.de/pdfsandwich/
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.