স্ক্যান করা পৃষ্ঠাগুলি বাছাইযোগ্য পাঠ্য সহ পিডিএফ কীভাবে তৈরি করবেন?


32

আজ আমি আমাদের সরবরাহকারী থেকে একটি পিডিএফ পেয়েছি এবং এতে স্বাক্ষর ইত্যাদি সহ বেশ কয়েকটি মুদ্রিত এবং স্ক্যান করা পৃষ্ঠা রয়েছে I তবে আমার অবাক করে দিয়ে স্পষ্টত স্ক্যান করা ছবি থেকে পাঠ্যটি নির্বাচন করা এবং পাঠ্য হিসাবে অনুলিপি করা যেতে পারে। স্ক্রিনশটটি দেখুন:

নির্বাচনযোগ্য পাঠ্য সহ পিডিএফ স্ক্যান

এর পিছনে অবশ্যই কিছু ওসিআর রয়েছে যেহেতু অনুলিপি করা পাঠ্যে ভুল রয়েছে। কিন্তু কিভাবে এই সম্ভব? আমি এটি আগে কখনও দেখিনি, এটি কীভাবে তৈরি করা যায়?


4
Github.com/gkovacs/pdfocr এর মতো প্যাকেজগুলি ইতোমধ্যে বিদ্যমান চিত্র পিডিএফ
এক্সুসাম

ব্যাচ-ওসিআর অনেকগুলি পিডিএফ দ্বারা প্রাপ্ত ফলাফলের থেকে এটি কীভাবে আলাদা ?
দিমিত্রি গ্রিগরিয়েভ

@ দিমিত্রিগ্রিরিভ আমি এই ধরণের পিডিএফ এর আগে কখনও দেখিনি, তাই আমি জিজ্ঞাসা করেছি, এটি কী ছিল। উত্তরগুলিতে প্রিন্টারের ফার্মওয়্যার ওসিআর বা ওসিআরএমআইপিডিএফ সম্পর্কে কিছুই নেই, প্রশ্ন এবং উত্তর দুটিই খুব আলাদা। দু'টি প্রশ্নই ওসিআর এবং পিডিএফ সম্পর্কে ব্যতীত আমি সদৃশ কিছুই দেখতে পাচ্ছি না।
ভোজটাচ দোহনাল

ঠিক আছে, আমি কখনই কোনও ওসিআর পিডিএফ দেখিনি যা আপনি পোস্ট করেছেন তার থেকে আলাদা, এজন্য আপনার প্রশ্নটি আমার কাছে অদ্ভুত মনে হয়।
দিমিত্রি গ্রিগরিয়েভ

উত্তর:


53

এটির (এখানে কিছু অন্যান্য উত্তরের বিপরীতে) সম্ভবত অ্যাক্রোব্যাটের সাথে মোটেই কিছুই করার নেই।

আপনি যখন "পিডিএফ হিসাবে সংরক্ষণ করুন" পছন্দ করেন এবং সেটিংসে "অনুসন্ধানযোগ্য" চেকবক্সটি টিক পাবেন তখন সর্বাধিক (সমস্ত ?!) পেশাদার নথি স্ক্যানার এবং সর্বাধিক আধা-পেশাদার তারা ওসিআর সম্পাদন করবে। সস্তা "কনজিউমার গ্রেড" মডেলগুলি সংযুক্ত পিসিতে ওসিআর করবে, সাধারণ নেটওয়ার্ক স্ক্যানারগুলি অভ্যন্তরীণভাবে এটি করে।

"সন্ধানযোগ্য" শব্দের অর্থ স্ক্যানার ওসিআর সম্পাদন করবে, তারপরে স্ক্যান করা বিটম্যাপস সহ একটি পৃষ্ঠা তৈরি করবে এবং ওসিআর থেকে অদৃশ্য অক্ষরের সাথে ওভারলে করবে, প্রতিটি বিটম্যাপে স্বতন্ত্র চরিত্রের উপরে থাকবে।

এইভাবে, আপনি অনুসন্ধান করতে পারেন, এবং এছাড়াও নির্বাচন করতে পারেন, অনুলিপি এবং "বিটম্যাপ" যাদু দ্বারা পেস্ট করতে পারেন। এটা মোটেই যাদু নয়। বাস্তবে, আপনি কেবল অদৃশ্য পাঠ্যটি অনুলিপি করছেন।

স্ক্যানার কিছু অতিরিক্ত যাদুও করতে পারে যেমন অনেক ছোট টাইল থেকে বৃহত্তর চিত্রটি তৈরি করে যা আবারও ব্যবহৃত হয়। এটি আসলে সম্ভব হওয়ার চেয়ে অনেক ছোট দস্তাবেজের আকারের ফলস্বরূপ, তবে মজার বিস্ময়ও ঘটতে পারে (তারা যদি আপনার সাথে ঘটে তবে মজাদার নয়!) যেমন জেরক্স আপনার বিলের কাহিনীকে পরিবর্তিত করে , এমনকি কোনও ওসিআর না করা অবস্থায়ও বিদ্রূপাত্মকভাবে দেখা যায় ফার্মওয়্যার উপর।


হ্যাঁ, তারা সম্ভবত এটি কীভাবে তৈরি করেছিলেন, আমি সম্পূর্ণ সন্দেহ করি তারা সম্পূর্ণ অ্যাডোব অ্যাক্রোব্যাট ব্যবহার করে।
ভোজটাচ দোহনাল

স্ক্যান করা চিত্রের পিছনে সমস্ত পাঠ্য রেখে আমরা এটি করেছি যেখানে ওসিআর রিপোর্ট করেছিল যেখানে এটি প্রতিটি পাঠ্য নোড খুঁজে পেয়েছে।
থরবজর্ন রাভন অ্যান্ডারসন

10

কিন্তু কিভাবে এই সম্ভব?

মূলত, একটি প্রোগ্রাম ইনপুট ফাইলে ওসিআর সম্পাদন করে এবং তারপরে এটি চিত্রের উপরে পাঠ্যের একটি অদৃশ্য স্তর রাখে। বিকল্পভাবে, এটি একই প্রভাব প্রদান করে ছবির নীচে পাঠ্যের একটি দৃশ্যমান স্তর স্থাপন করতে পারে ।

আপনি যখন কিছু নির্বাচন করেন, তখন পাঠ্য স্তরটি নির্বাচিত হওয়ার কারণে ছবিটির কোনও গুরুত্ব নেই।

এটি কীভাবে তৈরি করা যায়?

বিভিন্ন উপায় আছে। অ্যাক্রোব্যাট ইতিমধ্যে প্রস্তাবিত হয়েছে যে দেওয়া, আমি কিছু বিনামূল্যে বিকল্প যুক্ত করব (এবং সৌভাগ্যক্রমে আপনি উইন্ডোজ সেগুলি ব্যবহার করতে বাধ্য হন না)।

পিডিএফ-এক্সচেঞ্জ ভিউয়ার

এটি ট্র্যাকার সফ্টওয়্যার দ্বারা পরিচালিত একটি স্থানীয় উইন্ডোজ প্রোগ্রাম । আপনি একটি 32 বিট prefix মধ্যে 32 বিট সংস্করণ ব্যবহার বিনামূল্যের সংস্করণ মদ অধীনে জরিমানা চালায়, তাই আপনি Windows, MacOS এবং Linux তে এটি ব্যবহার করতে পারেন। শেষ দুটি ক্ষেত্রে, আপনার যথাক্রমে প্লেঅনম্যাক বা প্লেঅনলিনাক্সের প্রয়োজন হবে।

এই জিজ্ঞাসা উবুন্টুকে ছেড়ে দেওয়া উত্তর থেকে একটি চিত্র এখানে দেওয়া হয়েছে :

ওয়াইনের অধীনে পিডিএফ-এক্সচেঞ্জ দর্শকের স্ক্রিনশট

OCRmyPDF

এটি ঘোস্টস্ক্রিপ্ট, টেসারেক্ট এবং আনপারপেপারের ভিত্তিতে পাইথনে লিখিত একাধিক প্ল্যাটফর্ম প্রোগ্রাম । দস্তাবেজগুলি থেকে:

ওসিআরমিপিডিএফ কী করে

ওসিআরমিপিডিএফ কোনও বিষয়বস্তু না হারিয়ে page পৃষ্ঠার সমস্ত তথ্য ক্যাপচার করার জন্য প্রয়োজনীয় রঙিন স্থান এবং রেজোলিউশন (ডিপিআই) নির্ধারণ করার জন্য একটি পিডিএফের প্রতিটি পৃষ্ঠার বিশ্লেষণ করে। এটি পৃষ্ঠাটি রাস্টারাইজেশনের জন্য ঘোস্টস্ক্রিপ্ট ব্যবহার করে এবং তারপরে একটি ওসিআর "স্তর" তৈরি করতে রাস্টারযুক্ত চিত্রটিতে ওসিআর সম্পাদন করে। তারপরে স্তরটি মূল পিডিএফের উপরে ফিরে কলম করা হয়।

এটি ডেবিয়ান এবং উবুন্টু ডেরিভেটিভগুলিতে সহজেই ইনস্টল করা যেতে পারে:

apt-get install ocrmypdf

বা ম্যাকোজে:

brew tap jbarlow83/ocrmypdf
brew install ocrmypdf

উইন্ডোজে আপনাকে ডকার চিত্রটি ব্যবহার করতে হবে। বিস্তারিত জানার জন্য অফিসিয়াল ডক্স দেখুন।

ব্যবহার খুব সহজ এবং আমি আপনাকে আরও ভাল ফলাফলের জন্য -dalচ্ছিক (ডেস্কিউ) এবং -c(পরিষ্কার) পরামিতিগুলি ব্যবহার করার পরামর্শ দিই । এটি প্রতিটি পৃষ্ঠা সোজা করে ওসিআর প্রক্রিয়া চালানোর আগে ছোট বিন্দু / অপূর্ণতাগুলি পরিষ্কার করবে।

আপনি ভাষাটি সরবরাহ করতে পারেন (এবং হওয়া উচিত) -l

ইতালিয়ান ভাষায় লেখা এই স্কিওড ডকুমেন্ট থেকে নেওয়া একটি উদাহরণ এখানে :

ওসিআরমিপিডিএফের উদাহরণ

আমি যে আদেশটি ব্যবহার করেছি তা হ'ল:

ocrmypdf -l ita -d -c input.pdf output.pdf

অনলাইন সরঞ্জাম

কয়েকটি অনলাইন সরঞ্জাম রয়েছে যা একই কাজ করে। উল্লেখযোগ্য, পিডিএফ 24 ওসিআরমিপিডিএফের একটি বিনামূল্যে ওয়েব-ভিত্তিক সংস্করণ হোস্ট করে যা সীমাবদ্ধতা ছাড়াই ব্যবহার করা যায় used

আরো দেখুন:


এই উত্তরের জন্য আপনাকে ধন্যবাদ, আমি ওসিআরএমআইপিডিএফ চেষ্টা করেছি এবং এটি খুব ভালভাবে কাজ করেছে তবে দুর্ভাগ্যক্রমে যে ভাষা সমর্থনটি আমার প্রয়োজন এখনও পরিপক্ক নয়, তাই ফলাফলগুলি এখনও খুব কার্যকরভাবে কার্যকর হয়নি।
ভোজটাচ দোহনাল

@ ভোজটচডোহনাল আপনি কোন ভাষায় আগ্রহী? আপনি পরীক্ষামূলক জন্য প্রাসঙ্গিক ভাষা প্যাক ইনস্টল করেছেন? এখানে তালিকাটি দেখুন: macports.org/port.php?by=name&substr=tesseract-
Andrea Lazzarotto

4

এটি সম্ভবত অ্যাক্রোব্যাট ওসিআর বৈশিষ্ট্যের কারণে :

অ্যাক্রোব্যাট কয়েক ডজন ভাষায় যে কোনও পিডিএফ বা চিত্র ফাইলে পাঠ্য সনাক্ত করতে পারে। আপনাকে যা করতে হবে তা হ'ল আপনি ওসিআর করতে চান এমন স্ক্যানকৃত ডকুমেন্ট বা চিত্র খুলুন, তারপরে টুলবারের উপরের ডানদিকে নীলা সরঞ্জাম বোতামটি ক্লিক করুন। এই সাইডবারে, পাঠ্য শনাক্তকরণ ট্যাবটি নির্বাচন করুন, তারপরে এই ফাইলটিতে বোতামটি ক্লিক করুন।

...

পাঠ্যটি স্বীকৃত হওয়ার সাথে সাথে আপনি এখন সমস্ত সাধারণ মার্কআপ সরঞ্জাম ব্যবহার করে পিডিএফটিকে চিহ্নিত করতে পারেন - আপনি হাইলাইট করতে পারবেন, পাঠ্য ক্রস আউট এবং আরও অনেক কিছু করতে পারেন । এমনকি আপনি সনাক্ত করা ফর্ম্যাটিংয়ের সাহায্যে পাঠ্যটি অনুলিপি করতে পারেন, যদিও এটি পাঠ্যের স্বীকৃতিগুলির চেয়ে প্রায়শই কম সঠিক।


এটি পাঠকের ক্ষেত্রেও কাজ করে? অন্যান্য দস্তাবেজগুলি আমার পক্ষে এইভাবে কাজ করে না ...
ভোজটাচ দোহনাল

আমি ভয় করি না, তবে এই নিবন্ধটি একবার দেখুন: pdf.wondershare.com/pdf-software-compistance/…
duDE

3

থেকে Adobe এর ওয়েবসাইট

স্ক্যান করা পিডিএফ ফাইলটিতে পাঠ্যটি সনাক্ত করুন

আপনি যখন পিডিএফ-তে কাগজের নথিগুলি স্ক্যান করেন, আপনি সত্যিই কেবল সেই নথিগুলির ছবি তুলছেন। এটি ফটো এবং অন্যান্য মুদ্রিত চিত্রগুলির জন্য দুর্দান্ত তবে আপনি যদি একটি 200-পৃষ্ঠার ডকুমেন্ট পেয়ে থাকেন যাতে আপনাকে একটি নির্দিষ্ট শব্দ বা বাক্যাংশ সন্ধান করতে হবে? সেই স্ক্যান করা ফাইলটিতে পাঠ্যটি সনাক্ত করতে অ্যাক্রোব্যাট ব্যবহার করুন, পাঠ্য সামগ্রীটি সন্ধানযোগ্য এবং ব্যবহারযোগ্য making

  1. আপনার স্ক্যান করা নথিটি অ্যাক্রোব্যাটে খোলে, সরঞ্জাম ফলকটি খুলুন এবং পাঠ্য রিকগনিশন প্যানেলটি প্রসারিত করুন। যদি আপনি সরঞ্জামগুলির ফলকে "পাঠ্য স্বীকৃতি" দেখতে না পান তবে উপরের ডানদিকে কোণায় মেনুটি নির্বাচন করে এটি যুক্ত করতে পারেন (নীচের চিত্রটি দেখুন little সেই ছোট লাল তীরটি কোথায় নির্দেশ করছে? সেখানে ক্লিক করুন)।
  2. আপনি যে দস্তাবেজটি খালি পেয়েছেন তা স্ক্যান করতে "এই ফাইলটিতে" ক্লিক করুন। স্বীকৃত পাঠ্য বাক্সটি পপ আপ হয়ে গেলে আপনি কেবল ডিফল্ট সেটিংস গ্রহণ করতে পারেন এবং "ঠিক আছে" এ ক্লিক করতে পারেন। অ্যাক্রোব্যাট চিত্রটি ব্যবহারযোগ্য টেক্সটে রূপান্তর করবে; এটি পরীক্ষা করে দেখার জন্য, কেবল বিষয়বস্তু সম্পাদনা প্যানেল দিয়ে কোনও শব্দ বা বাক্য সম্পাদনা করার চেষ্টা করুন। এটা কি দুর্দান্ত নয় !?

ধন্যবাদ তবে আমি সবেমাত্র রিডার ডিসি তে
পিডিএফটি খুললাম

5
আপনি ফাইলটি গ্রহণের আগে ওসিআর করা হয়েছিল, যখন পাঠ্যটি স্বীকৃত হবে, এটি পিডিএফের সাথে একসাথে সংরক্ষণ করা হবে।
মাতা জুহসজ

@ ভোজটচডোহনাল আপনার সম্ভবত পুরো পাঠক দরকার, কেবল পাঠকই নয়
থরবজর্ন রাভন অ্যান্ডারসেন
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.