প্রধান উত্তর
যেহেতু আমি একই ধরণের চাকরিতে আগ্রহী (যদিও পিডিএফ ফাইলগুলি ওসিআর করার প্রয়োজন হয় না, তবে তাদের ডিজেভিতে রূপান্তর করতে এবং তারপরে ওসিআর করে), আমি এই প্রশ্নটি এবং প্রতিক্রিয়াগুলির অভাব পেয়েছি (যেহেতু আমার ডিপিআই অনুমান করার প্রয়োজন ছিল পিক্সেল সংখ্যার চিত্র এবং তারপরে pdfinfo
বা অন্য কৌশল দ্বারা আউটপুট হিসাবে আকারটি ব্যবহার করুন --- কোনও পিডিএফের ভিতরে থাকা চিত্রগুলির বিভিন্ন ঘনত্ব থাকতে পারে ইত্যাদি উল্লেখ না করে)।
আরও অনেক গবেষণার পরে, আমি দেখতে পেলাম যে আপনি নীচের মতো pdfimages
(প্যাকেজ পপলার-ব্যবহারগুলি থেকে ) ব্যবহার করতে পারেন :
$ pdfimages -list deptest.pdf
page num type width height color comp bpc enc interp object ID x-ppi y-ppi size ratio
--------------------------------------------------------------------------------------------
1 0 image 100 100 gray 1 1 image no 9 0 53 53 169B 14%
2 1 image 100 100 gray 1 1 ccitt no [inline] 53 53 698B 56%
উপরের তালিকাতে x-ppi
এবং লক্ষ্য করুন y-ppi
। এটি পিডিএফে চিত্রগুলি সংরক্ষণ করা ফর্ম্যাটটিও তালিকাভুক্ত করে, যা শীতল (কখনও কখনও এটি জেবিআইজি 2, কখনও কখনও জেপিইজি 2000 ইত্যাদি))
দ্রষ্টব্য: deptest.pdf
উপরে ব্যবহৃত ফাইলটি সংগ্রহস্থল থেকেpdfsizeopt
পাওয়া যায় ।
আসল কর্ম
এর পরে, আপনি কেবল pdfimages
নিজের সাথে চিত্রগুলি বের করতে পারেন বা আপনার পছন্দ মতো অনেকগুলি ফর্ম্যাটে পুরো পৃষ্ঠাগুলি রেন্ডার করতে pdftoppm
(এছাড়াও থেকে poppler-utils
) ব্যবহার করতে পারেন (উদাহরণস্বরূপ, টিফ, সাথে স্ক্যান করার জন্য tesseract
)।
আপনি নিম্নলিখিতগুলির মতো কিছু ব্যবহার করতে পারেন (ধরে নিবেন যে আপনি একটি ডিরেক্টরি তৈরি করেছেন imgs
যেখানে আপনি নিজের চিত্রগুলি রাখবেন):
pdfimages -png Faraway-PRA.pdf imgs/prefix
ফাইলগুলি ডিরেক্টরিতে imgs
নামের সাথে শুরু করে তৈরি করা হবে prefix
, যেমন:
$ ls
prefix-000.png prefix-047.png prefix-094.png prefix-141.png
prefix-001.png prefix-048.png prefix-095.png prefix-142.png
prefix-002.png prefix-049.png prefix-096.png prefix-143.png
prefix-003.png prefix-050.png prefix-097.png prefix-144.png
(...)
তারপরে আপনি যে কোনও শল্য চিকিত্সা করতে পারেন যা আপনি দেখতে পছন্দ করেন এমন সরঞ্জামগুলির সাথে উপযুক্ত scantailor
বা যা পছন্দ করতে পারেন।
আরও সরাসরি উত্তর
আপনি যদি কেবল একটি পিডিএফ ফাইলকে ওসিআর করতে চান তবে আপনি এমন একটি প্রোগ্রাম ব্যবহার করতে পারেন যা ভালভাবে বজায় রাখা এবং ইতিমধ্যে প্যাকেজযুক্ত, ocrmypdf ।
x-ppi
(ডিপিআই-তে এক্স রেজোলিউশন) এবংy-ppi
(ডিপিআই-তে রেজাল্ট রেজোলিউশন)pdfimages
উদাহরণস্বরূপ উবুন্টু 14.04 এর সাথে আসা পুরানো সংস্করণগুলিতে প্রদর্শিত হয়নি । উবুন্টু 18.04 এ যা পাওয়া যায় তার মধ্যে এই মানগুলি অন্তর্ভুক্ত থাকে।pdfimages -v
আমার উবুন্টু 18.04 মেশিন শো আমি সংস্করণ 0.62.0, যা আছে না এই বৈশিষ্ট্যগুলি আছে।