এখানে একটি উপায় রয়েছে, যার জন্য সাধারণ কিছু সাধারণ সরঞ্জামগুলির প্রয়োজন হবে:
- ocrodjvu
- পিডিএফবিডস , এর নিজস্ব প্রয়োজনীয়তা রয়েছে যা গুগল সন্ধান করতে পারে
আমরা djvu2hocr
কমান্ড ( ocrodjvu
প্যাকেজ থেকে ) ডিজেভিউ ফাইল থেকে লুকানো পাঠ্য স্তরটি বের করতে পারি (এটি কোনও ওসিআর বা অনুরূপ করে না, এটি জ্যামিতির সাহায্যে পাঠ্য স্তরটি বের করে), অর্থাত:
djvu2hocr -p 10 sample.djvu | sed 's/ocrx/ocr/g' > pg10.html
sed
হস্তক্ষেপ আউটপুট hOCR এ শ্রেণীর নামগুলি সংশোধন করে (যা কেবলমাত্র সহজ HTML ফাইল)
এখন আমরা এর সাথে টিআইএফএফ ফর্ম্যাটে ডিজেভিউ পৃষ্ঠাটি বের করব:
ddjvu -format=tiff -page=10 sample.djvu pg10.tif
যাতে আমরা এই ফাইলটির কাজ শেষ করে ফোল্ডারে শেষ করব:
sample.djvu
pg10.html
pg10.tif
এখানেই pdfbeads
খেলতে আসে, এবং আমরা সাধারণভাবে সম্পাদন করি:
pdfbeads -o pg10.pdf
তারপরে এই নিফটি প্রোগ্রামটি এই ফোল্ডারের ভিতরে থাকা সমস্ত কিছুর যত্ন নেবে (একই বেস নাম সহ এইচটিএমএল এবং টিআইএফএফ ফাইল) এবং কিছু উপ-পণ্য সহ আউটপুট পিডিএফ ফাইল তৈরি করে:
sample.djvu
pg10.html
pg10.tif
pg10.jbig2
pg10.pdf
pg10.sym
যা ইনজুট ডিজেভিউ ফাইলের মতো এবং এর ভিতরে পাঠ্য স্তর রয়েছে:
মন্তব্য সংক্ষিপ্তসার:
নীচে দীর্ঘতর মন্তব্যগুলি ডিজেভিউ ডকুমেন্ট পৃষ্ঠা থেকে পৃথক অবজেক্ট হিসাবে ছোট চিত্রগুলির প্রতিনিধিত্ব করার বিষয়ে আলোচনা করে যা সহজেই সম্ভব হয় না কারণ ডিজেভিউ ডকুমেন্ট পৃষ্ঠাটি পৃথক বস্তু হিসাবে ছোট চিত্র সম্পর্কে কোনও "তথ্য" না দিয়ে itselfচ্ছিক পাঠ্য স্তর সহ কেবল একটি একক চিত্র। ডিজেভিউ নথিতে যদি রঙের চিত্র থাকে তবে সেগুলি সাধারণত পটভূমির স্তরতে স্থাপন করা হবে; এক্ষেত্রে ব্যবহারকারী পুরো ক্যানভাসের পরিবর্তে কেবল চিত্রগুলি আউটপুট করতে ( ddjvu
কেবলমাত্র পটভূমির স্তরটি বের করুন) এবং imagemagick
(অটো-ক্রপ) সরঞ্জামগুলির সুবিধা নিতে পারে , তবে এটি পিডিএফ আউটপুট তৈরি করার জন্য স্বয়ংক্রিয় করা যায় না
অন্য স্যানার, তবে ধীর পন্থা হ'ল নিয়মিত ওসিআর জিইউআই সরঞ্জাম ব্যবহার। gscan2pdf
(> 1.0) লিনাক্স পিসির সম্ভাব্য প্রার্থী হিসাবে প্রস্তাবিত