টেসেরাক্ত
2018 হিসাবে, সেরা উপলব্ধ ওপেন সোর্স ওসিআর সফ্টওয়্যারটি তার নতুন এলএসটিএম নিউরাল নেটওয়ার্ক ওসিআর মডেল সহ টেসারেক্ট 4 (বিটা) । এর ওসিআর পারফরম্যান্সটি সংস্করণ 3-এ ব্যবহৃত পূর্ববর্তী ওসিআর মডেলের তুলনায় অনেক ভাল।
উদাহরণ ( output.pdf
স্ক্যান করা জার্মান ডকুমেন্টের জন্য একটি পাঠ্য স্তর সহ একটি পিডিএফ ফাইল উত্পাদন করুন ):
$ echo page-*.png > input.list
$ tesseract --oem 1 -l deu input.list output pdf
Stdout এ স্বীকৃত পাঠ্য মুদ্রণ করুন:
$ tesseract --oem 1 -l deu page page-0001.png stdout
ইনস্টল করা ভাষাগুলির তালিকা করুন:
$ tesseract --list-langs
ডাউনলোডযোগ্য প্রশিক্ষণপ্রাপ্ত ডেটা সেট আকারে বেশ কয়েকটি ভাষা / স্ক্রিপ্টের জন্য সমর্থন উপলব্ধ , যেমন ফ্রেকটুরের জন্য এমনকি একটি ডেটা সেট রয়েছে।
নতুন এলএসটিএম মডেলটির সাথে, টেস্ট্রাক্ট ওসিআরসিপাস গবেষণা প্রকল্প থেকে কিছুটা অনুপ্রেরণা নিয়েছে ।
পরীক্ষামূলক সংস্করণ 3 এমনকি ভাল মানের ইনপুট চিত্রগুলিতে তুলনামূলকভাবে খারাপ সম্পাদন করে, অর্থাত্ এটি প্রায়শই ধূলিকণা পিক্সেলগুলিতে একক অক্ষর সনাক্ত করে (কোনও পাঠ্য প্রসঙ্গে বাইরে) এবং সুপরিচিত শব্দগুলিতে সহজেই একক অক্ষর ত্রুটির পরিচয় দেয়।
কীলকাকার
কিউনিফর্ম ওসিআর পারফরম্যান্সটি ততটা খারাপ নয়, তবে এটি সক্রিয়ভাবে রক্ষণাবেক্ষণ করা হয়নি (শেষ প্রকাশ ২০১১, সংস্করণ ১.১) এবং সহজেই ক্র্যাশ হয়ে যায় এবং এর সাথে আরও কিছু সমস্যা রয়েছে:
- বিভিন্ন প্যাকেজগুলির সাথে বিভাগগুলি ত্রুটি এবং রিলিজ
- এর বিন্যাস অ্যালগরিদমটি কেবল সহজেই ভাঙা হয়, অর্থাত্ একটি কলামের নথিতে অনুচ্ছেদগুলি প্রায়শই এলোমেলোভাবে চারপাশে বদলে যায়
- এটি অজানা বিকল্পগুলিতে ত্রুটিযুক্ত হয় না
আপনি লেআউট অ্যালগরিদম এই জাতীয় অক্ষম করতে পারেন:
$ cuneiform --singlecolumn -l ger -f text -o foo.txt image-0001
(-l
উত্স নথির ভাষা নির্দিষ্ট করে)
ocrad
$ ocrad -F utf8 image-0001
পাঠ্য ডিফল্টভাবে stdout এ মুদ্রিত হয়।
ব্যবসায়ের নথিতে এটি একটি আন্ডারলাইন করা শব্দটি মিস করেছে, যেখানে কিউনিফর্ম / টেস্ট্রাক্ট / গোকার নেই।
gocr
$ gocr image-0001
পাঠ্য ডিফল্টভাবে stdout এ মুদ্রিত হয়।
হার্ডওয়্যারের
বিবেকী স্বয়ংক্রিয় নথিটি ফিড (ADF) স্ক্যানার, যেমন জন্য অনেক জন্য খুব ভাল সমর্থন আছে Avision এবং ফুজিৎসু বেশী।
স্যানের সাথে অন্তর্ভুক্ত হ'ল scanimage
কমান্ড লাইন প্রোগ্রাম যা আপনি স্ক্রিপ্টযুক্ত স্ক্যান পাইপলাইনগুলি তৈরি করতে ব্যবহার করতে পারেন (সিএফ। যেমন আমার adf2pdf.py
স্ক্রিপ্ট)।