আপনি যদি কোনও পৃষ্ঠায় পাঠ্য সহ কোনও পিডিএফ স্ক্যান করেন এবং এটিতে একটি ওসিআর অ্যাপ্লিকেশন চালান, তবে পাঠ্যটি পৃষ্ঠাটিতে যুক্ত করা হবে তবে "পাঠ্য রেন্ডারিং মোড" অদৃশ্যতে সেট করা আছে। এটি সেখানে রয়েছে, তবে এটি স্ক্রিনে রেন্ডার হয়নি (বা কাগজে মুদ্রিত থাকলে)। আপনি যা দেখতে বা মুদ্রণ করবেন তা হ'ল আসল স্ক্যান করা চিত্র।
কীভাবে আমরা অদৃশ্য পাঠ্যকে দৃশ্যমান করতে পারি?
ঠিক আছে, আমরা পিডিএফ সম্পাদনা করতে পারি ... অদৃশ্যতে পাঠ্য রেন্ডারিং সেট করতে পিডিএফ কোডটি হ'ল:
3 Tr
আপনি এই স্ট্রিংটি (এখনও) মূল থেকে_আবিবি.পিডিএফ থেকে অথবা_ঘোস্ট্রিপ্ট.পিডিএফ থেকে খুঁজে পাবেন না কারণ পিডিএফগুলির কিছু অংশ সঙ্কুচিত হয়েছে। সুতরাং আমরা এগুলির সাহায্যে যথাসম্ভব সঙ্কোচিত qpdf
:
qpdf \
--qdf \
from_abbyy.pdf \
qdf--from_abbyy.pdf
qpdf \
--qdf \
after_ghostscript.pdf \
qdf--after_ghostscript.pdf
এখন আমরা উপরের স্ট্রিংটি সহজেই খুঁজে পেতে পারি (এবং প্রতিটি ফাইলে একটি মাত্র উপস্থিতি রয়েছে)।
আসুন এটি পাঠ্য উপস্থাপনের দৃশ্যমান মোডগুলির মধ্যে একটিতে স্যুইচ করুন। সামগ্রিকভাবে, আমরা এই 8 টি পাঠ্য উপস্থাপনা মোডগুলির মধ্যে চয়ন করতে পারি:
0 - fill glyph shapes
1 - stroke glyph shapes
2 - fill, then stroke glyph shapes
3 - neither fill nor stroke glyph shapes (invisible)
4 - fill and add to path for clipping glyph shapes
5 - stroke glyph shapes and add to path for clipping
6 - fill, then stroke glyph shapes and add path for clipping
7 - add glyph shapes to path for clipping
আমি যদি "ফিল" মোড ব্যবহার করি তবে ওসিআর থেকে লেখাটি অন্তর্নিহিত স্ক্যান চিত্রের উপরে সম্ভবত খুব ভাল লাগবে না। তাই আমি "স্ট্রোক" বৈকল্পিক পছন্দ করি। সুতরাং আমি পড়তে সহজভাবে লাইন উপরে পরিবর্তন
1 Tr
এই পরিবর্তিত পিডিএফটি দেখে, আমি এটি পছন্দ করি না, কারণ ডিফল্ট লাইনউইথ আমার স্বাদের জন্য খুব ঘন। এছাড়াও, বাহ্যরেখা স্ট্রোকের রঙ কালো (ডিফল্ট); মূলত স্ক্যান করা আকারগুলির সাথে একটি বিপরীতে থাকতে আমি লাল পছন্দ করি। সুতরাং আমি এই লাইনের সামনের অংশে কিছু কোড যুক্ত করব যা লাইনউইথকে একটি পয়েন্টের চতুর্থাংশে সেট করে:
.25 w
এবং স্ট্রোকের রঙটি লাল রঙ করার জন্য অন্য কিছু:
1 0 0 RG
সম্পূর্ণ লাইনটি এখন পঠিত:
.25 w 1 0 0 RG 1 Tr
এখানেই শেষ.
দ্রষ্টব্য, আমাদের সামান্য হেরফের ফাইলটি ক্ষতিগ্রস্থ করেছে, কারণ এটির "TOC" (প্রযুক্তিগত ভাষায়: এর xref
সারণী) এখন আর বৈধ হবে না। অ্যাক্রোব্যাট রিডার বা অ্যাক্রোব্যাট পেশাদার তবুও এটি খুলবে (এমনকি কোনও অভিযোগ না করে) এবং নীরবে ফাইলটির xref বিভাগটি "মেরামত" করবে। অন্যান্য পিডিএফ দর্শক ফাইলটি প্রত্যাখ্যান করতে পারে, তবে আপাতত আমাদের পাত্তা দিচ্ছে না ...
এখানে ফলাফলের স্ক্রিনশটগুলি দেওয়া হয়েছে:
(প্রথম স্ক্রিনশটটি উইন্ডো প্রস্থের সাথে জুম করা))
(দ্বিতীয় স্ক্রিনশটটি 800% এ জুম করা হয়েছে))
লাল রূপরেখা হ'ল স্ক্যান করা পাঠ্যটি এখন দৃশ্যমান হয়, যেমনটি আমরা এটি চেয়েছিলাম।
_Abbyy.pdf এবং after_ghostscript.pdf উভয় ফাইলের জন্য উপরে বর্ণিত একই পদ্ধতিটি পরিচালনা করেছি । অ্যাক্রোব্যাট রিডার 2 টি পৃথক দৃষ্টিতে আমি উভয় ফলাফল খোলাম। যদি আমরা তাদের উভয়কে একই মানকে জুম করে তুলি এবং উভয় উইন্ডোকে সর্বাধিক করে তুলি তবে উভয়ের ফাইলের মধ্য দিয়ে ভিউ টগল করা সহজ [alt]+[tab]
। দুটি পিডিএফ ফাইলের মধ্যে সবচেয়ে ভাল রেন্ডারিং পার্থক্য প্রকাশ করার এটি একটি ভাল উপায়।
আমার ফলাফলটি হল: ঘোস্টস্ক্রিপ্টের (v9.02) ইনপুট এবং এই ফাইলটির জন্য এর আউটপুটটির মধ্যে একটি পিক্সেলও আলাদা নয়। তবে আপনি যদি পাঠ্যটি অনুলিপি করতে চান তবে বেশ পার্থক্য আছে ...