আমি কীভাবে চিত্রগুলি থেকে পাঠ্য বের করতে পারি?


25

আমি কীভাবে চিত্রগুলি থেকে পাঠ্য বের করতে পারি?

আমি স্ক্যান করা ফাইলগুলি সম্পর্কে বলছি না, তবে বাগানের বিভিন্ন চিত্র, যেমন আপনি যখন ক্লাসে একটি ব্ল্যাকবোর্ডের একটি হাই-ডিফের ছবি তোলেন, এবং এটি খুব সুন্দর হাতে লেখা; অথবা আপনি যখন কোনও রেসিপি বইয়ের কোনও পৃষ্ঠা ফটোগ্রাফ করেন এবং পাঠ্য বিন্যাসে রেসিপিটি চান।

তার জন্য কোনও নিখরচায় ও মুক্ত সফ্টওয়্যার?

আমি পরীক্ষার চেষ্টা করেছি, এবং ফলাফলগুলি ভয়াবহ ছিল।


আমার ওসিআর দরকার যা এক সাথে বাংলা এবং ইংরেজি সমর্থন করে ।
আলহেলাল

উত্তর:


26

চিত্রগুলি থেকে পাঠ্য আহরণের ক্রিয়াকলাপ বলা হয় OCRএবং উবুন্টুর কাছে ওসিআরকে উত্সর্গীকৃত একটি উইকি পৃষ্ঠা রয়েছে । এই পৃষ্ঠা থেকে:

উপলব্ধ ওসিআর সরঞ্জামগুলি

উবুন্টু ইউনিভার্সের ভাণ্ডারগুলিতে নিম্নলিখিত ওসিআর সরঞ্জামগুলি রয়েছে:

  1. gocr - একটি কমান্ড লাইন ওসিআর
  2. fuzzyocr - স্প্যামাস্যাসিন প্লাগ ইন চিত্র সংযুক্তি পরীক্ষা করতে
  3. libhocr0 - হিব্রু ওসিআর
  4. ওক্রাড - অপটিকাল চরিত্র স্বীকৃতি প্রোগ্রাম
  5. ocrfeeder - নথি বিন্যাস বিশ্লেষণ এবং অপটিক্যাল চরিত্র স্বীকৃতি সিস্টেম
  6. ওক্রপাস - নথি বিশ্লেষণ এবং ওসিআর সিস্টেম
  7. টেসেরাক্ত-OCR

উবুন্টু মাল্টিভার্স রিসোসিটরিগুলিতেও রয়েছে:

  1. কিউনিফর্ম - বহু ভাষা ওসিআর সিস্টেম

কিছু প্যাকেজ পুরানো হয়ে গেছে তবে আনুষ্ঠানিকভাবে তাজা তাজাগুলি অ্যালেক্সপ পিপিএতে পাওয়া যাবে (পিপিএ যুক্ত কোড: পিপিএ: অ্যালেক্স-পি / নোটসিলাপ)। আপনি যদি কখনও পিপিএ ব্যবহার না করেন তবে কীভাবে পিপিএ থেকে সফ্টওয়্যার যুক্ত করবেন তা পরীক্ষা করুন

সম্পাদনা: মন্তব্যে দেখানো হয়েছে ক্লারা ওসিআর খুব অস্তিত্বশীল তবে এটি হার্ডি-তে আটকে গেছে এবং তাদের ওয়েবসাইটটি সর্বশেষ আপডেট হিসাবে ২০০৯-এ রয়েছে।


আমি বর্ণিত উদাহরণগুলির জন্য সেগুলির মধ্যে কোনওটি ব্যবহার করার অভিজ্ঞতা আছে কি? আমি তাদের জন্য নিয়মিত ওসিআর সরঞ্জামগুলিতে কিছুটা সংশয়ী হয়ে উঠি। তালিকার Number নম্বরটি হ'ল আমি চেষ্টা করেছিলাম এবং এটি ছিল ভয়াবহ।
স্ট্রাপাকোস্কি

যদি আমি স্মরণ করি, আমি সমুদ্রের সাথে ভয়াবহ ফলাফলও পেয়েছি oc আপনি যদি তাদের সাফল্যের সাথে চেষ্টা করে থাকেন তবে আপনি কোন সিনট্যাক্সটি ব্যবহার করেছেন? ধন্যবাদ।
স্ট্রাপাকোস্কি

কেউ কিছু! আমি কখনই ওসিআর নিয়ে বিরক্ত করিনি: ডি ফ্রেশমিট অনুসন্ধানে ক্লারা ওসিআর এবং টেসারাক্ট -ওসিআর দেখায়;) ( ফ্রেশমিট .नेट / অনুসন্ধান /… )
রিনজউইন্ড

আমি যদি ভুল করে বলি যে ওসিআরের সফল ব্যবহারের জন্য প্রক্রিয়া সম্পর্কে জ্ঞান থাকা প্রয়োজন এবং নির্দিষ্ট চিত্রটি স্ক্যান করার জন্য একটি যত্নবান সেটআপ প্রয়োজন? সুতরাং, আমি যদি সঠিকভাবে থাকি তবে খারাপ ফলাফলগুলি ব্যবহারকারীর কারণে হতে পারে এবং সফ্টওয়্যারটির কারণে নয়।
এনএন

OCRআপনি কীভাবে চিত্রটি তৈরি হয় তা আপনি জানেন এবং আপনি যে সফ্টওয়্যারটি ব্যবহার করেন তা ব্যবহার করার ক্ষেত্রে আপনি খুব ভাল পারদর্শী (এটি কারণ হিসাবে আমি কখনই এটি ব্যবহার করতে পারি নি)।
রিঞ্জউইন্ড

18

tesseract-ocrঅন্য সব তুলনায় দুর্দান্ত এক হবে। ইনস্টলেশন জন্য, কমান্ড রান করুন sudo apt-get install tesseract-ocr

ব্যবহার হয় tesseract filename.jpg output.txt

উপরের কমান্ডটি উত্পন্ন করবে output.txt

আপনি উপযুক্ত ভাষা নির্বাচন বিবেচনা করতে পারেন। যে ক্ষেত্রে আপনি ইনস্টল করতে হবে tesseract-ocr-LANGপ্যাকেজ, যেখানে LANGতিনটি চিঠি আইএসও 639-2 ভাষা কোড । 18.04 রেপোতে এখন আপনার কাছে 123 টি ভাষা রয়েছে। তারপরে উদাহরণস্বরূপ ব্যবহার করুন :

tesseract mySpanishText.jpg output -l spa

আরে, সুতরাং এটি কাজ করে তবে সঠিক নয় বা আমি বরং বলব 80-85% নির্ভুল। উদাহরণস্বরূপ এই চিত্রটির জন্য: pbs.twimg.com/media/DJs6_pcXkAA2VrN.jpg , এটি বিশৃঙ্খলাবদ্ধ $ সাইন এবং বেশিরভাগ বন্ধনীও । স্কোয়ার, বৃত্তাকার, কোঁকড়ানো, সমস্ত বন্ধনী একটি সমস্যা, সেগুলি কখনই সঠিকভাবে নিষ্কাশিত হয় না। আপনি কোন স্থির জানেন?
মিলন ছেদা
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.