32

আজ আমি আমাদের সরবরাহকারী থেকে একটি পিডিএফ পেয়েছি এবং এতে স্বাক্ষর ইত্যাদি সহ বেশ কয়েকটি মুদ্রিত এবং স্ক্যান করা পৃষ্ঠা রয়েছে I তবে আমার অবাক করে দিয়ে স্পষ্টত স্ক্যান করা ছবি থেকে পাঠ্যটি নির্বাচন করা এবং পাঠ্য হিসাবে অনুলিপি করা যেতে পারে। স্ক্রিনশটটি দেখুন:

এর পিছনে অবশ্যই কিছু ওসিআর রয়েছে যেহেতু অনুলিপি করা পাঠ্যে ভুল রয়েছে। কিন্তু কিভাবে এই সম্ভব? আমি এটি আগে কখনও দেখিনি, এটি কীভাবে তৈরি করা যায়?

— ভোজটাচ দোহনাল
সূত্র

4

Github.com/gkovacs/pdfocr এর মতো প্যাকেজগুলি ইতোমধ্যে বিদ্যমান চিত্র পিডিএফ

— এক্সুসাম

ব্যাচ-ওসিআর অনেকগুলি পিডিএফ দ্বারা প্রাপ্ত ফলাফলের থেকে এটি কীভাবে আলাদা ?

— দিমিত্রি গ্রিগরিয়েভ

@ দিমিত্রিগ্রিরিভ আমি এই ধরণের পিডিএফ এর আগে কখনও দেখিনি, তাই আমি জিজ্ঞাসা করেছি, এটি কী ছিল। উত্তরগুলিতে প্রিন্টারের ফার্মওয়্যার ওসিআর বা ওসিআরএমআইপিডিএফ সম্পর্কে কিছুই নেই, প্রশ্ন এবং উত্তর দুটিই খুব আলাদা। দু'টি প্রশ্নই ওসিআর এবং পিডিএফ সম্পর্কে ব্যতীত আমি সদৃশ কিছুই দেখতে পাচ্ছি না।

— ভোজটাচ দোহনাল

ঠিক আছে, আমি কখনই কোনও ওসিআর পিডিএফ দেখিনি যা আপনি পোস্ট করেছেন তার থেকে আলাদা, এজন্য আপনার প্রশ্নটি আমার কাছে অদ্ভুত মনে হয়।

— দিমিত্রি গ্রিগরিয়েভ

53

এটির (এখানে কিছু অন্যান্য উত্তরের বিপরীতে) সম্ভবত অ্যাক্রোব্যাটের সাথে মোটেই কিছুই করার নেই।

আপনি যখন "পিডিএফ হিসাবে সংরক্ষণ করুন" পছন্দ করেন এবং সেটিংসে "অনুসন্ধানযোগ্য" চেকবক্সটি টিক পাবেন তখন সর্বাধিক (সমস্ত ?!) পেশাদার নথি স্ক্যানার এবং সর্বাধিক আধা-পেশাদার তারা ওসিআর সম্পাদন করবে। সস্তা "কনজিউমার গ্রেড" মডেলগুলি সংযুক্ত পিসিতে ওসিআর করবে, সাধারণ নেটওয়ার্ক স্ক্যানারগুলি অভ্যন্তরীণভাবে এটি করে।

"সন্ধানযোগ্য" শব্দের অর্থ স্ক্যানার ওসিআর সম্পাদন করবে, তারপরে স্ক্যান করা বিটম্যাপস সহ একটি পৃষ্ঠা তৈরি করবে এবং ওসিআর থেকে অদৃশ্য অক্ষরের সাথে ওভারলে করবে, প্রতিটি বিটম্যাপে স্বতন্ত্র চরিত্রের উপরে থাকবে।

এইভাবে, আপনি অনুসন্ধান করতে পারেন, এবং এছাড়াও নির্বাচন করতে পারেন, অনুলিপি এবং "বিটম্যাপ" যাদু দ্বারা পেস্ট করতে পারেন। এটা মোটেই যাদু নয়। বাস্তবে, আপনি কেবল অদৃশ্য পাঠ্যটি অনুলিপি করছেন।

স্ক্যানার কিছু অতিরিক্ত যাদুও করতে পারে যেমন অনেক ছোট টাইল থেকে বৃহত্তর চিত্রটি তৈরি করে যা আবারও ব্যবহৃত হয়। এটি আসলে সম্ভব হওয়ার চেয়ে অনেক ছোট দস্তাবেজের আকারের ফলস্বরূপ, তবে মজার বিস্ময়ও ঘটতে পারে (তারা যদি আপনার সাথে ঘটে তবে মজাদার নয়!) যেমন জেরক্স আপনার বিলের কাহিনীকে পরিবর্তিত করে , এমনকি কোনও ওসিআর না করা অবস্থায়ও বিদ্রূপাত্মকভাবে দেখা যায় ফার্মওয়্যার উপর।

— ডেমন
সূত্র

হ্যাঁ, তারা সম্ভবত এটি কীভাবে তৈরি করেছিলেন, আমি সম্পূর্ণ সন্দেহ করি তারা সম্পূর্ণ অ্যাডোব অ্যাক্রোব্যাট ব্যবহার করে।

— ভোজটাচ দোহনাল

স্ক্যান করা চিত্রের পিছনে সমস্ত পাঠ্য রেখে আমরা এটি করেছি যেখানে ওসিআর রিপোর্ট করেছিল যেখানে এটি প্রতিটি পাঠ্য নোড খুঁজে পেয়েছে।

— থরবজর্ন রাভন অ্যান্ডারসন

10

কিন্তু কিভাবে এই সম্ভব?

মূলত, একটি প্রোগ্রাম ইনপুট ফাইলে ওসিআর সম্পাদন করে এবং তারপরে এটি চিত্রের উপরে পাঠ্যের একটি অদৃশ্য স্তর রাখে। বিকল্পভাবে, এটি একই প্রভাব প্রদান করে ছবির নীচে পাঠ্যের একটি দৃশ্যমান স্তর স্থাপন করতে পারে ।

আপনি যখন কিছু নির্বাচন করেন, তখন পাঠ্য স্তরটি নির্বাচিত হওয়ার কারণে ছবিটির কোনও গুরুত্ব নেই।

এটি কীভাবে তৈরি করা যায়?

বিভিন্ন উপায় আছে। অ্যাক্রোব্যাট ইতিমধ্যে প্রস্তাবিত হয়েছে যে দেওয়া, আমি কিছু বিনামূল্যে বিকল্প যুক্ত করব (এবং সৌভাগ্যক্রমে আপনি উইন্ডোজ সেগুলি ব্যবহার করতে বাধ্য হন না)।

পিডিএফ-এক্সচেঞ্জ ভিউয়ার

এটি ট্র্যাকার সফ্টওয়্যার দ্বারা পরিচালিত একটি স্থানীয় উইন্ডোজ প্রোগ্রাম । আপনি একটি 32 বিট prefix মধ্যে 32 বিট সংস্করণ ব্যবহার বিনামূল্যের সংস্করণ মদ অধীনে জরিমানা চালায়, তাই আপনি Windows, MacOS এবং Linux তে এটি ব্যবহার করতে পারেন। শেষ দুটি ক্ষেত্রে, আপনার যথাক্রমে প্লেঅনম্যাক বা প্লেঅনলিনাক্সের প্রয়োজন হবে।

এই জিজ্ঞাসা উবুন্টুকে ছেড়ে দেওয়া উত্তর থেকে একটি চিত্র এখানে দেওয়া হয়েছে :

OCRmyPDF

এটি ঘোস্টস্ক্রিপ্ট, টেসারেক্ট এবং আনপারপেপারের ভিত্তিতে পাইথনে লিখিত একাধিক প্ল্যাটফর্ম প্রোগ্রাম । দস্তাবেজগুলি থেকে:

ওসিআরমিপিডিএফ কী করে

ওসিআরমিপিডিএফ কোনও বিষয়বস্তু না হারিয়ে page পৃষ্ঠার সমস্ত তথ্য ক্যাপচার করার জন্য প্রয়োজনীয় রঙিন স্থান এবং রেজোলিউশন (ডিপিআই) নির্ধারণ করার জন্য একটি পিডিএফের প্রতিটি পৃষ্ঠার বিশ্লেষণ করে। এটি পৃষ্ঠাটি রাস্টারাইজেশনের জন্য ঘোস্টস্ক্রিপ্ট ব্যবহার করে এবং তারপরে একটি ওসিআর "স্তর" তৈরি করতে রাস্টারযুক্ত চিত্রটিতে ওসিআর সম্পাদন করে। তারপরে স্তরটি মূল পিডিএফের উপরে ফিরে কলম করা হয়।

এটি ডেবিয়ান এবং উবুন্টু ডেরিভেটিভগুলিতে সহজেই ইনস্টল করা যেতে পারে:

apt-get install ocrmypdf

বা ম্যাকোজে:

brew tap jbarlow83/ocrmypdf
brew install ocrmypdf

উইন্ডোজে আপনাকে ডকার চিত্রটি ব্যবহার করতে হবে। বিস্তারিত জানার জন্য অফিসিয়াল ডক্স দেখুন।

ব্যবহার খুব সহজ এবং আমি আপনাকে আরও ভাল ফলাফলের জন্য -dalচ্ছিক (ডেস্কিউ) এবং -c(পরিষ্কার) পরামিতিগুলি ব্যবহার করার পরামর্শ দিই । এটি প্রতিটি পৃষ্ঠা সোজা করে ওসিআর প্রক্রিয়া চালানোর আগে ছোট বিন্দু / অপূর্ণতাগুলি পরিষ্কার করবে।

আপনি ভাষাটি সরবরাহ করতে পারেন (এবং হওয়া উচিত) -l।

ইতালিয়ান ভাষায় লেখা এই স্কিওড ডকুমেন্ট থেকে নেওয়া একটি উদাহরণ এখানে :

আমি যে আদেশটি ব্যবহার করেছি তা হ'ল:

ocrmypdf -l ita -d -c input.pdf output.pdf

অনলাইন সরঞ্জাম

কয়েকটি অনলাইন সরঞ্জাম রয়েছে যা একই কাজ করে। উল্লেখযোগ্য, পিডিএফ 24 ওসিআরমিপিডিএফের একটি বিনামূল্যে ওয়েব-ভিত্তিক সংস্করণ হোস্ট করে যা সীমাবদ্ধতা ছাড়াই ব্যবহার করা যায় used

আরো দেখুন:

— আন্দ্রে লাজারোত্তো
সূত্র

এই উত্তরের জন্য আপনাকে ধন্যবাদ, আমি ওসিআরএমআইপিডিএফ চেষ্টা করেছি এবং এটি খুব ভালভাবে কাজ করেছে তবে দুর্ভাগ্যক্রমে যে ভাষা সমর্থনটি আমার প্রয়োজন এখনও পরিপক্ক নয়, তাই ফলাফলগুলি এখনও খুব কার্যকরভাবে কার্যকর হয়নি।

— ভোজটাচ দোহনাল

@ ভোজটচডোহনাল আপনি কোন ভাষায় আগ্রহী? আপনি পরীক্ষামূলক জন্য প্রাসঙ্গিক ভাষা প্যাক ইনস্টল করেছেন? এখানে তালিকাটি দেখুন: macports.org/port.php?by=name&substr=tesseract-

— Andrea Lazzarotto

4

এটি সম্ভবত অ্যাক্রোব্যাট ওসিআর বৈশিষ্ট্যের কারণে :

অ্যাক্রোব্যাট কয়েক ডজন ভাষায় যে কোনও পিডিএফ বা চিত্র ফাইলে পাঠ্য সনাক্ত করতে পারে। আপনাকে যা করতে হবে তা হ'ল আপনি ওসিআর করতে চান এমন স্ক্যানকৃত ডকুমেন্ট বা চিত্র খুলুন, তারপরে টুলবারের উপরের ডানদিকে নীলা সরঞ্জাম বোতামটি ক্লিক করুন। এই সাইডবারে, পাঠ্য শনাক্তকরণ ট্যাবটি নির্বাচন করুন, তারপরে এই ফাইলটিতে বোতামটি ক্লিক করুন।

...

পাঠ্যটি স্বীকৃত হওয়ার সাথে সাথে আপনি এখন সমস্ত সাধারণ মার্কআপ সরঞ্জাম ব্যবহার করে পিডিএফটিকে চিহ্নিত করতে পারেন - আপনি হাইলাইট করতে পারবেন, পাঠ্য ক্রস আউট এবং আরও অনেক কিছু করতে পারেন । এমনকি আপনি সনাক্ত করা ফর্ম্যাটিংয়ের সাহায্যে পাঠ্যটি অনুলিপি করতে পারেন, যদিও এটি পাঠ্যের স্বীকৃতিগুলির চেয়ে প্রায়শই কম সঠিক।

— শহরবাসী
সূত্র

এটি পাঠকের ক্ষেত্রেও কাজ করে? অন্যান্য দস্তাবেজগুলি আমার পক্ষে এইভাবে কাজ করে না ...

— ভোজটাচ দোহনাল

আমি ভয় করি না, তবে এই নিবন্ধটি একবার দেখুন: pdf.wondershare.com/pdf-software-compistance/…

— duDE

3

থেকে Adobe এর ওয়েবসাইট

স্ক্যান করা পিডিএফ ফাইলটিতে পাঠ্যটি সনাক্ত করুন

আপনি যখন পিডিএফ-তে কাগজের নথিগুলি স্ক্যান করেন, আপনি সত্যিই কেবল সেই নথিগুলির ছবি তুলছেন। এটি ফটো এবং অন্যান্য মুদ্রিত চিত্রগুলির জন্য দুর্দান্ত তবে আপনি যদি একটি 200-পৃষ্ঠার ডকুমেন্ট পেয়ে থাকেন যাতে আপনাকে একটি নির্দিষ্ট শব্দ বা বাক্যাংশ সন্ধান করতে হবে? সেই স্ক্যান করা ফাইলটিতে পাঠ্যটি সনাক্ত করতে অ্যাক্রোব্যাট ব্যবহার করুন, পাঠ্য সামগ্রীটি সন্ধানযোগ্য এবং ব্যবহারযোগ্য making

আপনার স্ক্যান করা নথিটি অ্যাক্রোব্যাটে খোলে, সরঞ্জাম ফলকটি খুলুন এবং পাঠ্য রিকগনিশন প্যানেলটি প্রসারিত করুন। যদি আপনি সরঞ্জামগুলির ফলকে "পাঠ্য স্বীকৃতি" দেখতে না পান তবে উপরের ডানদিকে কোণায় মেনুটি নির্বাচন করে এটি যুক্ত করতে পারেন (নীচের চিত্রটি দেখুন little সেই ছোট লাল তীরটি কোথায় নির্দেশ করছে? সেখানে ক্লিক করুন)।

আপনি যে দস্তাবেজটি খালি পেয়েছেন তা স্ক্যান করতে "এই ফাইলটিতে" ক্লিক করুন। স্বীকৃত পাঠ্য বাক্সটি পপ আপ হয়ে গেলে আপনি কেবল ডিফল্ট সেটিংস গ্রহণ করতে পারেন এবং "ঠিক আছে" এ ক্লিক করতে পারেন। অ্যাক্রোব্যাট চিত্রটি ব্যবহারযোগ্য টেক্সটে রূপান্তর করবে; এটি পরীক্ষা করে দেখার জন্য, কেবল বিষয়বস্তু সম্পাদনা প্যানেল দিয়ে কোনও শব্দ বা বাক্য সম্পাদনা করার চেষ্টা করুন। এটা কি দুর্দান্ত নয় !?

— মাটি জুহেস
সূত্র

ধন্যবাদ তবে আমি সবেমাত্র রিডার ডিসি তে

— পিডিএফটি খুললাম

5

আপনি ফাইলটি গ্রহণের আগে ওসিআর করা হয়েছিল, যখন পাঠ্যটি স্বীকৃত হবে, এটি পিডিএফের সাথে একসাথে সংরক্ষণ করা হবে।

— মাতা জুহসজ

@ ভোজটচডোহনাল আপনার সম্ভবত পুরো পাঠক দরকার, কেবল পাঠকই নয়

— থরবজর্ন রাভন অ্যান্ডারসেন

স্ক্যান করা পৃষ্ঠাগুলি বাছাইযোগ্য পাঠ্য সহ পিডিএফ কীভাবে তৈরি করবেন?

পিডিএফ-এক্সচেঞ্জ ভিউয়ার

OCRmyPDF

ওসিআরমিপিডিএফ কী করে

অনলাইন সরঞ্জাম

স্ক্যান করা পিডিএফ ফাইলটিতে পাঠ্যটি সনাক্ত করুন