আমি কীভাবে টেস্টেরাক্ট এবং ওপেনসিভির মধ্যে নির্বাচন করব? [বন্ধ]


94

আমি সম্প্রতি জুড়ে এসেছিল টেসেরাক্ত এবং OpenCV । দেখে মনে হচ্ছে টেসেরাক্ট একটি পূর্ণাঙ্গ ওসিআর ইঞ্জিন এবং ওসিআর অ্যাপ্লিকেশন / পরিষেবা তৈরি করতে ওপেনসিভি ফ্রেমওয়ার্ক হিসাবে ব্যবহার করা যেতে পারে।

আমি আমার কয়েকটি চিত্রের উপর টেসারেক্ট ব্যবহার করার চেষ্টা করেছি এবং এর যথার্থতা শালীন বলে মনে হচ্ছে। পরে, আমি পাইথন ব্যবহার করে ওসিআর সম্পাদন করতে ওপেনসিভি ব্যবহারের একটি খুব সাধারণ টিউটোরিয়াল পেয়েছি এবং মুগ্ধ হয়েছিল। কয়েক মিনিটের মধ্যে, আমি সিস্টেমটির প্রশিক্ষণ শেষ করেছি এবং এর যথার্থতা ভাল ছিল। তবে অবশ্যই, এই পদ্ধতির গ্রহণের অর্থ আমার একটি বৃহত প্রশিক্ষণের সেট ব্যবহার করে আমার সিস্টেমকে ব্যাপক প্রশিক্ষণ দেওয়া দরকার।

আমার নির্দিষ্ট প্রশ্নগুলি নিম্নলিখিত:

  • একটি কাস্টম ওসিআর অ্যাপ্লিকেশন তৈরি করতে ওপেনসিভি ব্যবহারের মাধ্যমে কীভাবে কেউ টেস্ট্রাক্ট এবং বেছে নিতে পারেন?
  • বিভিন্ন ভাষার জন্য টেসারেক্টের জন্য প্রশিক্ষণ ডেটাসেট রয়েছে। ওপেনসিভিতে কি এমন কিছু রয়েছে যাতে ওসিআর অর্জনের জন্য আমাকে আরম্ভ করতে হবে না?
  • কোনটি হতে চান বাণিজ্যিক অ্যাপ্লিকেশনটির জন্য ভাল?

কোনও পরামর্শ?


8
নীচের উত্তরগুলি সত্যিই দুর্দান্ত, তবে ওসিআরের সাথে কাজ করেছে এমন একটি হিসাবে আমি আপনাকে বলতে পারি যে টেস্টারিকের স্বীকৃতি গুণমানটি বাণিজ্যিক অ্যাপ ব্যবহারকারীর প্রত্যাশার নীচে। পরীক্ষণ দুর্দান্ত, তবে ওসিআর কঠিন - অনলাইন প্রশিক্ষণ, বা অন ফ্লাইটে উন্নত করার মতো বিষয়গুলি হুমম্ম ... এখনও গবেষণা। গুগল, ইদানীং টিএসের পিছনে বড় স্পনসর, নিজস্ব ইঞ্জিন - ওক্রোপাস তৈরির সিদ্ধান্ত নিয়েছে। এবং এটি যখন এটি উন্মুক্ত করার প্রতিশ্রুতি দিয়েছে, মূল স্বীকৃতি ইঞ্জিনটি এখনও পাওয়া যায় নি - তারা কেবল একটি ফ্রেমওয়ার্ক প্রকাশ করেছিল - এটি পরীক্ষার জন্য এপিআই।
স্যাম

4
@ বাসাইল: এটি খুব তথ্যপূর্ণ। আমি ওক্রোপাস সম্পর্কে অবগত ছিলাম না। ধন্যবাদ. আমার শেষ উদ্দেশ্যটি যদি কোনও বিজনেস কার্ড ওসিআর লিখতে বলা হয় (বা বলুন যে, আমি যে লিঙ্ক করেছি তার মতো গ্যাস স্টেশন প্রাপ্তি পড়ে এমন এক: আপলোড.উইকিমিডিয়া.আর / উইকিপিডিয়া / এএন / ৩ / ৩৪ /…) বিকল্পগুলির জন্য আপনার কোনও পরামর্শ আছে? )? আমি জিজ্ঞাসা করছি কারণ এটি অর্জনের জন্য আমি কেবল কৌতূহলী হয়েছি যে অসংখ্য মোবাইল অ্যাপ্লিকেশন এটি ব্যবহার করে। ওসিআর সার্ভার-সাইডে করাতে আমার আপত্তি নেই। এই শীতল ডেমোটি দেখে আমি ওপেনসিভি ব্যবহার করতে প্রলুব্ধ হয়েছিলাম: youtube.com/watch?v=OkcOfS1lTxs
কিংবদন্তি

6
বেশ কয়েকটি বাণিজ্যিক ওসিআর ইঞ্জিন রয়েছে, কেবল গুগল OCR accuracy testsএবং আপনি কয়েকটি চার্ট পাবেন। এবং মোবাইল অ্যাপ্লিকেশন সম্পর্কে কথা বলতে, তাদের বেশিরভাগ টেসারেক্ট ব্যবহার করে। তবে আপনি যদি তাদের কয়েকটি ডাউনলোড করতে বিরক্ত করেন তবে আপনি দেখতে পাবেন যে ফলাফল প্রতিশ্রুতির চেয়ে কিছুটা আলাদা। তারা সাধারণত সাবধানে নিয়ন্ত্রিত পরিবেশে একটি ভিডিও ডেমো তৈরি করে এবং এটি ইউটিউবে পোস্ট করে তবে বন্য অবস্থায় আপনি যদি কোনও পৃষ্ঠা / রেসিপি / কার্ড / যা স্ক্যান করেন তবে কিছু মজাদার ফলাফল পাবেন।
স্যাম

4
@ বাসাইল: আপনাকে ধন্যবাদ আজ রাতে আমাকে ব্যস্ত রাখার মতো কিছু। সত্যিই আপনার সময় প্রশংসা।
কিংবদন্তি

উত্তর:


77
  • টেসারেক্ট একটি ওসিআর ইঞ্জিন। এটি গুগল দ্বারা বিশেষত চিত্রগুলি থেকে পাঠ্য পড়ার জন্য, বেসিক ডকুমেন্টের বিভাগগুলি সম্পাদন করতে এবং নির্দিষ্ট চিত্রের ইনপুটগুলিতে পরিচালনা করতে (একক শব্দ, লাইন, অনুচ্ছেদ, পৃষ্ঠা, সীমাবদ্ধ অভিধান ইত্যাদি) ব্যবহার করে, কাজ করে এবং অর্থায়ন করে।

  • অন্যদিকে, ওপেনসিভি একটি কম্পিউটার ভিশন লাইব্রেরি যা এতে এমন বৈশিষ্ট্যগুলি অন্তর্ভুক্ত করে যা আপনাকে কিছু বৈশিষ্ট্য নিষ্কাশন এবং ডেটা শ্রেণিবদ্ধকরণ করতে দেয়। আপনি একটি সাধারণ চিঠি সেগমেন্টার এবং শ্রেণিবদ্ধকারী তৈরি করতে পারেন যা বেসিক ওসিআর সম্পাদন করে তবে এটি খুব ভাল ওসিআর ইঞ্জিন নয় (আমি স্ক্র্যাচ থেকে আগে পাইথনে একটি তৈরি করেছি It's এটি আপনার প্রশিক্ষণের ডেটা থেকে বিচ্যুত ইনপুটটির পক্ষে সত্যই ভুল নয়)।

আপনি যদি ওসিআর কতটা কঠিন তার প্রাথমিক ধারণা পেতে চান তবে ওপেনসিভি চেষ্টা করুন। পরীক্ষামূলক প্রকৃত ওসিআরের জন্য।


4
এটি আপনার ইনপুট চিত্রগুলির উপর নির্ভর করে। যখন অক্ষরগুলি খাড়া হয় তখন অনুভূতিরেখায়, স্পেস আউট হয়ে থাকে, সংযুক্ত থাকে না এবং পুরোপুরি কালো-সাদা হয় T আমি প্রায় এক বছর ধরে ডিআইওয়াই বুক স্ক্যানিং / সংরক্ষণ সম্প্রদায়কে টিনক করেছিলাম এবং প্রক্রিয়াটি সহজ করার জন্য আমার ফ্রি সময়ে সফ্টওয়্যারটিতে কাজ করেছি। সেরা সেখানে আউট সফ্টওয়্যার (বাণিজ্যিক বা না হোক) পরবর্তী প্রক্রিয়াকরণের জন্য কোন ইমেজ টেক্সট সাথে আছেন স্ক্যান দর্জি । এটিতে কিছু সিএলআই বিকল্প রয়েছে, তবে এটি কীভাবে কাজ করে তা দেখতে যদি আপনি কিছুটা সময় নেন তবে এটি বেশ আশ্চর্য।
ব্লেন্ডার

4
আমি কিছুটা স্ক্যান টেইলারের সোর্স কোডে কাজ করেছি এবং এটি ওপেনসিভি অভ্যন্তরীণভাবে ব্যবহার করে না, তবে তৈরি করা অনেকগুলি অ্যালগরিদমগুলি ওপেনসিভির ফাংশনগুলির সাথে সত্যই সহজেই আবার লেখা যেতে পারে। যদি আপনার চিত্রগুলি warদ্ধ হয় না এবং অবনতি না ঘটে তবে আপনার চিত্রটিকে টেসারেক্টে খাওয়ানোর আগে আপনাকে অভিযোজিত বাইনারিাইজেশন এবং কিছু সাধারণ হতাশার বাস্তবায়ন করতে হবে।
ব্লেন্ডার

4
আপনার প্রশ্ন সম্পর্কে, আমি গতকাল কেবল কিছু এলোমেলো ইনপুট চিত্রগুলি পরীক্ষা করছিলাম। আমি একটি গ্যাস স্টেশন থেকে একটি রশিদ চেষ্টা করেছি: আপলোড.উইকিমিডিয়া.আর / উইকিপিডিয়া / en /3/ 34/… এটি 0হিসাবে পরিচিতি পেয়েছে8 (মোট $ 20.00)। আমি স্বীকার করি যে অঙ্কটি আমার ডিসিফার করার পক্ষেও শক্ত ছিল তবে আমি নিশ্চিত ছিলাম না যে এই পরিস্থিতিতে টেসারেক্টকে মানিয়ে নেওয়ার জন্য আরও কী কী করা যেতে পারে বা আমি যদি একটি সক্রিয় ব্যবহারকারী বেস থাকি তবে সম্ভবত একটি শেখার উপাদানটি চালু করতে পারি।
কিংবদন্তি

4
পরীক্ষক নির্দিষ্ট ফন্ট সেট পড়ার জন্য প্রশিক্ষিত হয়। সেই অবরুদ্ধ বর্ণগুলি সেগুলির একটি নয়। আপনাকে গুগলকে একটি পশু কোরবানি উপস্থাপন করতে হবে এবং নিজে পরীক্ষা করার চেষ্টা করতে হবে: কোড. google.com/p/tesseract-ocr/wiki/TrainingTesseract3
ব্লেন্ডার

4
এছাড়াও, আপনি এই চিঠিগুলি পড়ার জন্য একটি কাস্টম ওসিআর ইঞ্জিন লেখার আগে, এটি সঠিক হওয়ার আশা করবেন না। ফরচুনের হুইল অটোমেটিক করার জন্য আমি একটি লিখেছিলাম এবং নমুনা চিত্রগুলি (একটি অনলাইন গেমের স্ক্রিনশট) ছিল জেপিইজি। আমি প্রতিটি একক চরিত্রের প্রায় 10-20 নমুনা চিত্র সরবরাহ না করে জেপিইজি সংক্ষেপণ থেকে প্রাপ্ত শিল্পকর্মগুলি চিত্র শ্রেণীবদ্ধকারীকে স্ক্রু করতে যথেষ্ট ছিল।
ব্লেন্ডার

65

আপনি যে অঙ্কটি স্বীকৃতি টিউটোরিয়ালটি উল্লেখ করেছেন আমি তার লেখক এবং আমি বলব, এটি পরীক্ষার কোনও উপায় নয়।

টেস্ট্রাকট সত্যই একটি ভাল ওসিআর ইঞ্জিন, এটি সেরা ওপেনসোর্স ওসিআর ইঞ্জিন হতে পারে।

আপনি উল্লিখিত টিউটোরিয়ালটি ওসিআরের সর্বাধিক সাধারণ কাজ বোঝার জন্য একটি চেষ্টা মাত্র।

সুতরাং, আপনি যদি ওসিআর অ্যাপ্লিকেশন সন্ধান করছেন, আমি আপনাকে চিত্রটি প্রসেসোসেস করার জন্য ওপেনসিভি ব্যবহার করার পরামর্শ দিচ্ছি এবং তারপরে পরীক্ষামূলক ইঞ্জিন প্রয়োগ করব।


4
+1 আপনাকে ধন্যবাদ। সবার আগে, টিউটোরিয়ালটির জন্য আপনাকে ধন্যবাদ :) এটি একটি সত্যই আকর্ষণীয় পড়া ছিল। কীভাবে টেসারেক্টের সাথে ওপেনসিভি ব্যবহার করতে হবে সে সম্পর্কে কোনও রেফারেন্স / টিউটোরিয়াল সম্পর্কে আপনি সচেতন? ইন্টারফেসিংয়ের কথা বলছি না তবে টেস্টেরাক্টের যথার্থতা উন্নত করতে ইমেজ ট্রান্সফর্মেশন বা প্রি-প্রসেসিংয়ের ধরণটি করা দরকার?
কিংবদন্তি

4
কেবল এটুকু বলতে চাই যে অন্যদের তুলনায় টেস্ট্রাক্ট একটি ভাল ওসিআর ইঞ্জিন হলেও এটি এখনও মোটামুটি সঠিক নয়, সঠিক পাঠ্যটি স্বীকৃতি পেতে আমার প্রায় 40% সাফল্যের হার ছিল had আশা করি, বছর দুয়েকের মধ্যে এটি আরও ভাল হবে।
গ্যাংস্টাগ্রাহাম

4
@ গাংস্টা গ্রাহাম আপনার কেবল পরীক্ষার প্রশিক্ষণ নেওয়া দরকার এবং কয়েক বছর বা কয়েক বছরের মধ্যে আপনি ভাল ফলাফল পেতে পারেন। opensource.newmediaist.com/tesseract-training.html
ভ্যালেন্ট

4
আমি রিয়েল টাইম পাঠ্য নিষ্কাশনের জন্য পাইটসারেক্ট ব্যবহার করি। এটি লিনাক্স পিসিতে দুর্দান্ত কাজ করে তবে এটি রাস্পবেরি পাই পরিবেশের উপর খুব ধীর ... হালকা ভার্সন ইনস্টল করার কোনও উপায়? উদাহরণস্বরূপ, কেবলমাত্র ইংরেজী বর্ণমালার অঙ্কগুলি এবং মূল অক্ষরগুলি প্রক্রিয়া করে?
ইউরি

9

দুটি পরিপূরক হতে পারে। যদি আপনি ওপেনসিভিতে কাগজটি পড়েন: https://github.com/tesseract-ocr/docs/blob/master/tesseracticdar2007.pdf

এটি হাইলাইট করে যে "যেহেতু এইচপিতে পণ্যগুলিতে স্বতঃ-বিকাশযুক্ত পৃষ্ঠার বিন্যাস বিশ্লেষণ প্রযুক্তি ছিল, এবং (ওপেন-সোর্সের জন্য প্রকাশ করা হয়নি) পরীক্ষকটির কখনই তার নিজস্ব পৃষ্ঠা বিন্যাস বিশ্লেষণের প্রয়োজন হয় না T পরীক্ষামূলকভাবে তাই ধরে নেওয়া হয় যে এর ইনপুটটি বাইনারি চিত্র সহ polyচ্ছিক বহুভুজীয় পাঠ্য অঞ্চলগুলি সংজ্ঞায়িত করা হয়েছে। "

এই ধরণের টাস্কটি ওপেনসিভি দ্বারা সম্পাদন করা যেতে পারে এবং ফলস্বরূপ চিত্রটি টেসরেটকে হস্তান্তর করা হয়েছে। আপনি গিট রেপোতে এই ধরণের কোডের একটি নমুনা খুঁজে পেতে পারেন: https://github.com/Itseez/opencv_contrib/tree/master/modules/text/sample নমুনাগুলি টেক্সট রূপান্তর করতে ইমেজ করতে Tesseract API ব্যবহার করে।


3

ওপেনসিভি হ'ল সিভির একটি লাইব্রেরি যা সাধারণভাবে চিত্র বিশ্লেষণ ও প্রক্রিয়াজাতকরণে ব্যবহৃত হয়। টেসেরাক্ত জন্য একটি লাইব্রেরি OCR করুন , যা সিভি একটি বিশেষ উপসেট ইমেজ থেকে টেক্সট আহরণের নিবেদিত নেই।

থেকে OpenCV.org

..... মুখগুলি সনাক্ত ও সনাক্ত করতে, অবজেক্টগুলি চিহ্নিত করতে, ভিডিওগুলিতে মানব ক্রিয়াকে শ্রেণিবদ্ধকরণ, ক্যামেরার চলনগুলি ট্র্যাক করতে, চলমান অবজেক্টগুলি ট্র্যাক করতে, স্ট্রিও ক্যামেরা থেকে 3 ডি পয়েন্ট ক্লাউড উত্পাদন করতে, এক সাথে উচ্চতর উত্পাদন করার জন্য চিত্রগুলি স্টিচ করে পুরো দৃশ্যের রেজোলিউশন চিত্র, কোনও চিত্রের ডেটাবেস থেকে অনুরূপ চিত্রগুলি সন্ধান করুন, ফ্ল্যাশ ব্যবহার করে তোলা চিত্রগুলি থেকে লাল চোখ মুছুন, চোখের চলাফেরাগুলি অনুসরণ করুন, দৃশ্যের স্বীকৃতি দিন এবং এটি বাড়ানো বাস্তবের সাথে আবৃত করার জন্য চিহ্নিতকারী স্থাপন করুন etc

টেসারেক্ট গিথুব থেকে :

..... সরাসরি, বা (প্রোগ্রামারদের জন্য) কোনও এপিআই ব্যবহার করে ছবি থেকে টাইপড, হাতের লিখিত বা মুদ্রিত পাঠ্য নিষ্কাশন করতে পারেন। এটি বিভিন্ন ধরণের ভাষা সমর্থন করে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.