স্ক্যান করা নথি থেকে পাঠ্য উত্তোলন করুন


10

স্ক্যান করা নথি থেকে পাঠ্যটি নির্বাচন করার কোনও উপায় আছে কি? (আউটপুট একটি জেপিজি) উবুন্টু কোন ধরণের কাজটি করার জন্য কী ধরণের সরঞ্জাম সরবরাহ করে? একই কাজটি করার জন্য কি প্রাক-বিল্ড সফ্টওয়্যার বাইনারিগুলির পরিবর্তে আমি ব্যবহার করতে পারি এমন কোন লাইব্রেরি আছে? আমি ইমেজম্যাগিক ব্যবহার করে এটি একটি পিডিএফ রূপান্তর করার চেষ্টা করেছি এবং তারপরে পাঠ্যটি নির্বাচন করার চেষ্টা করেছি যা স্পষ্টতই কাজ করে নি।

উত্তর:


9

এই ধরণের পদ্ধতির নাম হ'ল ওসিআর (অপটিক্যাল ক্যারেক্টার রিকগনিশন)। এই লিঙ্কটি কয়েকটি ধরণের পছন্দও দেয়:

gocr - একটি কমান্ড লাইন ওসিআর
fuzzyocr - স্প্যামাস্যাসিন প্লাগ ইন চিত্র সংযুক্তি পরীক্ষা করতে
libhocr0 - হিব্রু ওসিআর
ওক্রাদ - অপটিকাল চরিত্র স্বীকৃতি প্রোগ্রাম
ocrfeeder - নথি বিন্যাস বিশ্লেষণ এবং অপটিক্যাল চরিত্র স্বীকৃতি সিস্টেম
ওক্রপাস - নথি বিশ্লেষণ এবং ওসিআর সিস্টেম
টেসেরাক্ত-OCR
কিউনিফর্ম - বহু ভাষা ওসিআর সিস্টেম 

এবং এটি পরামর্শ দেয় যে টেস্টেরাক্ট ( খুব পুরানো টিউটোরিয়াল ) এগুলির আরও ভাল বিকল্প। সুতরাং এটা চেষ্টা করে দেখো.


3

কিছুক্ষণ আগে উবুন্টুতে বিভিন্ন ওসিআর প্যাকেজগুলি মূল্যায়ন করে দেখা গেছে যে টেস্টেরাক্ট সেগুলির মধ্যে সবচেয়ে কম খারাপ (তবে যথেষ্ট খারাপ) এবং ওসিআরিংয়ের জন্য একটি মোড়ক স্ক্রিপ্ট লিখেছিলেন (যেহেতু টেস্ট্র্যাক টিআইএফএফের মতো অস্পষ্ট ইনপুট ফর্ম্যাট চায়)। এখানে আমার ~/bin/ocr:

#!/bin/sh
# usage: ocr filename.jpg
if test -z "$1"; then
    echo "usage: ocr filename.jpg [...]"
    echo "needs imagemagick and tesseract-ocr"
    echo "if tesseract fails, check if you've got tesseract-ocr-eng installed"
fi
tmpdir="$(mktemp -d)"
for fn in "$@"; do
  convert "$fn" "$tmpdir/page.tif"
  tesseract "$tmpdir/page.tif" "$tmpdir/page" 2>&1 | grep -v '^Tesseract Open Source OCR Engine$'
  cat "$tmpdir/page.txt"
  cp -i "$tmpdir/page.txt" "${fn%.jpg}.txt"
  rm "$tmpdir/page.tif" "$tmpdir/page.txt"
done
rm -r "$tmpdir"

জিম্পের সাহায্যে চিত্রগুলি প্রসেস করা (থ্রেশোল্ড সরঞ্জামটি ব্যবহার করে বিঅ্যান্ডডাব্লু তে রূপান্তর করা) অনেক উপকারজনক বলে মনে হয়েছিল।

আমি আশা করি তখন থেকে পরিস্থিতির উন্নতি হয়েছে। আমি সম্প্রতি ব্লগ পোস্টগুলিতে ওসিআর ফিডার নামটি দেখেছি, আমি এটি ব্যবহার করে দেখতে চাই।


2

টেসারেকট-ওসিআর প্যাকেজ হ'ল কমান্ড লাইন। আপনি যদি একটি জিইউআই সহ কোনও প্রোগ্রাম চান তবে আমি "gscan2pdf" ব্যবহার করি এবং আপনি এটি উবুন্টু সফ্টওয়্যার সেন্টারে খুঁজে পেতে পারেন।

Gscan2pdf- এ আপনাকে যা করতে হবে তা হল উপরে অবস্থিত ছোট স্ক্যান আইকনটি ক্লিক করুন। আমি মনে করি এটি আপনাকে দুটি বা তিনটি বিকল্প দেয়, জিওসিআর যা খুব ভাল নয় এবং পরীক্ষামূলক যা প্রশংসনীয়ভাবে কাজ করে। পরীক্ষার বাছাই করুন এবং এই বিন্দু থেকে আপনাকে উপযুক্ত ট্যাবটি ক্লিক করতে হবে যাতে আপনি রেজোলিউশন সেটিংসটি খুঁজে পেতে পারেন। আপনার সেরা বাজি 300 বা 600 এরও বেশি এবং পরীক্ষারটি ভাল করবে।

দুর্বলভাবে স্ক্যান করা, আঁকাবাঁকা বা পুরানো নথিগুলি ভাল রূপান্তর করতে পারে না। শুভকামনা!

পিএস .. আমি পড়তে থাকি যে টেস্ট্রেকট কেবল টিআইএফএফ চিত্রগুলি পড়তে পারে। এটা আমার ক্ষেত্রে হয় না। আমি জেপিজি বা পিএনজিও আমদানি করতে পারি।

পিপিএস ... সম্পাদনার জন্য দুঃখিত! আপনি সফ্টওয়্যার সেন্টারেও ওসিআরফিডার চেষ্টা করতে পারেন। যদিও আমি এটি চেষ্টা এখনও।



0

আমার কাছে লিনাক্স পুদিনা 17.2 x32 দারুচিনি রয়েছে। সম্ভবত এই পদক্ষেপগুলি উবুন্টু 14.04 x32 এও কাজ করবে।

  1. পরীক্ষামূলক ওসিআর ইনস্টল করুন sudo apt-get ইনস্টল -y tesseract-ocr tesseract-ocr-eng আপনি অতিরিক্ত প্যাকেজ ইনস্টল করে অন্যান্য ভাষা যুক্ত করতে পারেন। এই স্ক্রিনশটটি সিনাপটিক থেকে এসেছে: সিনাপটিক ভাষায় পরীক্ষামূলক ভাষা প্যাকেজ

পরীক্ষার ব্যবহার

বিকল্প 1 - কমান্ডলাইন ওপেন টার্মিনাল দ্বারা, তারপরে আপনি ফোল্ডারে যান যেখানে আপনি চিত্র ফাইল রাখেন (jpg, png) এবং কমান্ড চালান:

ক) সমস্ত চিত্র ফাইলগুলিকে পাঠ্যে রূপান্তর করা

for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" text; done

সমস্ত পাঠ্য ফাইলকে একটিতে মার্জ করতে, একটি কমান্ড চালান cat *.txt >> all.txt

খ) সমস্ত চিত্র ফাইলকে এইচকেআর ফাইলগুলিতে রূপান্তর করতে (ফায়ারফক্সের সাথে খুলুন)

for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" hocr; done

বিকল্প 2 - জিইউআই দ্বারা

ক) জিগ্যামারইডার ইনস্টল করুন এবং এটি ব্যবহার করুন

sudo add-apt-repository -y ppa:sandromani/gimagereader
sudo apt-get update
sudo apt-get install -y gimagereader

খ) দ্বিতীয় অ্যাপ্লিকেশনটি ভিয়েটোক্রিআর। আসল সংস্করণটি 4.0, সুতরাং ভিয়েতনাম সিআরএস 4.0.zip ডাউনলোড করুন

ফাইলগুলি আনপ্যাক করুন এবং জাভা দ্বারা ভিয়েট ওসিআর.জার খুলুন:

জাভা দ্বারা ভিয়েটোকিআর খুলুন আপনি যদি জাভা ইনস্টল না করেন তবে আপনি এটি সংগ্রহস্থল থেকে ইনস্টল করতে পারেন বা আপনি ওরাচল জাভা 8 ইনস্টল করতে পারেন উবুন্টু 14.04 এ ওরাকল জাভা 8 ইনস্টল করার পদক্ষেপগুলি

sudo add-apt-repository ppa:webupd8team/java
sudo apt-get update
sudo apt-get install oracle-java8-installer
sudo apt-get install oracle-java8-set-default

আমি ভিয়েটোক্রিআরকে প্রস্তাব দিচ্ছি, কারণ এটি আপনাকে পিডিএফ ফাইলগুলিতে ওসিআর করতে দেয়, বাল্ক রূপান্তরকরণও একটি বিকল্প।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.