কমান্ড লাইন / স্ক্রিপ্টের মাধ্যমে বিদ্যমান পিডিএফ অনুসন্ধানযোগ্য (ওসিআর) করুন


21

আমি একটি অফলাইনে স্ক্রিপ্টযোগ্য সরঞ্জামের সন্ধান করছি যা একটি বিদ্যমান পিডিএফ ফাইলটিকে ওসিআর চালিয়ে অনুসন্ধানযোগ্য সংস্করণের সাথে মূল অ-অনুসন্ধানযোগ্য ফাইলের পরিবর্তে অনুসন্ধানযোগ্য করে তোলে এবং অপ্রত্যাশিত চালাতে পারে।

উদাহরণস্বরূপ, www.pdfscannerapp.com - আমার যা প্রয়োজন ঠিক তা করে তবে এটি কেবল জিইউআই - স্ক্রিপ্টযোগ্য নয়।

আমি জানি যে এভারনোট পিডিএফ ফাইলগুলি অনুসন্ধানযোগ্য করে তোলে তবে তারা কেবল এভারনোটের মধ্যেই অনুসন্ধানযোগ্য থাকে।

আমি নিখুঁত ওসিআর খুঁজছি না, এমনকি একটি পরিমিতরূপে গ্রহণযোগ্য ওসিআরও ভাল, তবে আমি একটি বৃহত্ সফটওয়্যার প্যাকেজের পরিবর্তে একটি ছোট ইউটিলিটি পছন্দ করব।

(আমি এডিতে একটি অনুরূপ, তবে ভিন্ন প্রশ্ন সম্পর্কে সচেতন: অনুসন্ধানযোগ্য এবং স্বাক্ষরযোগ্য পিডিএফ - কে স্ক্যান করতে বা কনভার্ট করার জন্য সফটওয়্যার খুঁজছি - তবে, পিডিএফগুলিতে স্বাক্ষর বা পূরণ করার দরকার নেই, এবং আমার প্রয়োজনটি সমাধানটি স্ক্রিপ্টযোগ্য)

সম্পাদনা করুন:

1) বেশ কয়েকটি ইউটিলিটি স্ট্রাকচার্ড টেক্সট এক্সট্রাকশনকে মঞ্জুরি দেয়, তবে নিষ্কাশনের জন্য পাঠ্যটি অবশ্যই সেখানে থাকতে হবে; আমি মূলত পিডিএফগুলি উল্লেখ করছি যা বিটম্যাপগুলি মোড়ানো থাকে, যেমন স্ক্যানারদের দ্বারা উত্পন্ন পিডিএফগুলির ক্ষেত্রে।

2) আমি অগত্যা একটি নিখরচায় সমাধানের সন্ধান করছি না, এবং আমি ভাল ইউটিলিটির জন্য অর্থ প্রদান করতে পেরে আরও খুশি হব যা কেবল আমার প্রয়োজন অনুসারে হয় তবে আমি ওসিআর বৈশিষ্ট্যযুক্ত মিলিয়ন বৈশিষ্ট্যযুক্ত বিশাল অ্যাপ্লিকেশনগুলি খুঁজছি না তবে যার ব্যয়গুলি কেবল ওসিআর কার্যকারিতার জন্য এগুলি কেনার ন্যায্যতা দেয় না।

3) উপরে বর্ণিত হিসাবে, আমি নিখুঁত ওসিআর খুঁজছি না, কেবলমাত্র একটি পরিমিতরূপে গ্রহণযোগ্য ওসিআর। দুর্ভাগ্যক্রমে, আমার অভিজ্ঞতার সাথে, পরীক্ষার প্রকৃতপক্ষে সেই প্রান্তিকের নীচে। আমি "মাঝারিভাবে গ্রহণযোগ্য" একটি ওসিআর সংজ্ঞা দিয়েছি যা বলতে পারে, ওসিআর একটি ইউটিলিটি বিল যাতে কমপক্ষে অ্যাকাউন্ট নম্বর (গ্রাহক সংখ্যা) সঠিকভাবে স্বীকৃত হয়।

সম্পাদনা করুন: "স্ক্রিপ্টযোগ্য" বা "স্বয়ংক্রিয়", এটি স্বয়ংক্রিয়ভাবে ট্রিগার হতে সক্ষম এবং মানুষের ইনপুট ব্যতীত অপ্রত্যাশিতভাবে চালানো সক্ষম।


2
... জানেন না এটি করা কতটা কঠিন হতে পারে তবে পরীক্ষামূলক ওসিআর প্রায়শই ইউনিক্স.এসইতে কোড . google.com/p/tesseract-ocr এবং OCR উল্লেখ করেছে
এইচএইচ

1
এখানেও একই রকম প্রশ্ন রয়েছে , উত্তরগুলি কি আপনার প্রয়োজনীয়তার সাথে খাপ খায়?
nohillside

1
আপনি ওসিআর উল্লেখ করেন। আপনার প্রয়োজনীয়তার মধ্যে কি পিডিএফ, বা স্ক্যান হওয়া পিডিএফ ফাইলের মধ্যে চিত্রগুলি পরিচালনা করা অন্তর্ভুক্ত রয়েছে? তাদের মধ্যে সাধারণ পোস্টস্ক্রিপ্ট হিসাবে পাঠ্যযুক্ত ফাইলগুলির জন্য, "পিডিএফ 2 টেক্সট পাইলট" এর মতো পাঠ্য রূপান্তরকারী একটি পিডিএফ আপনার জন্য কাজ করতে পারে।
টিম বি

@ পেট্রিক্স আমি একটি ছোট্ট ইউটিলিটি খুঁজছিলাম, অগত্যা নিখরচায় নয় তবে ভিন্ন দামের সীমাতে। তবুও, এটি একটি সম্ভাব্য সমাধান, আপনাকে ধন্যবাদ।
ম্যাজমা 5'13

@ টিমোথিবাটলার দুর্ভাগ্যক্রমে আমি স্ক্যান করা পিডিএফ (চিত্রগুলি) নিয়ে কাজ করছি। তবে, সুন্দর ইঙ্গিত, আপনাকে ধন্যবাদ।
ম্যাজমা

উত্তর:


5

এটি "কমান্ড লাইন" থেকে "স্ক্রিপ্ট" করতে সক্ষম হওয়ার জন্য আপনার প্রয়োজনীয়তাগুলি আমার পক্ষে সম্পূর্ণ পরিষ্কার নয়।

আপনি যদি অটোমেশন সম্পর্কে কথা বলছেন তবে যেকোনও ইউটিলিটি দিয়ে এটি সম্ভব।

এবিবিওয়াই ফাইনআডার রিসার্চ + কীবোর্ড মায়েস্ট্রো + হ্যাজেল

আমি ABBYY ফাইনআরডার এক্সপ্রেস + কীবোর্ড মায়েস্ট্রো + হ্যাজেল ব্যবহার করি এরকম:

  1. হ্যাজেল কোনও নতুন পিডিএফের জন্য প্রদত্ত ফোল্ডারটি পর্যবেক্ষণ করে

  2. যদি একটি পিডিএফ পাওয়া যায় তবে এটি "এবিওয়াইওয়াই ফাইনারিডার এক্সপ্রেস" এ খোলা হবে

  3. এরপরে কী-বোর্ড মাস্ট্রো পিডিএফটিকে সন্ধানযোগ্য পিডিএফ (ওসিআর) এ রূপান্তর করার প্রক্রিয়াটি স্বয়ংক্রিয় করে এবং ফাইলটিকে একটি অন্য ডিরেক্টরিতে সংরক্ষণ করে।

এখন, যদি আপনি ইতিমধ্যে হ্যাজেল এবং কীবোর্ড মেস্ট্রোর মালিক না হন তবে আপনার প্রাথমিক ব্যয়গুলি খুব দ্রুত বাড়তে চলেছে (যদিও আমি উভয়ের উপর নির্ভর করে আমি তাদের একটি দর কষাকষি বিবেচনা করি)।

পিডিএফপেন + অ্যাপলস্ক্রিপ্ট + ফোল্ডার ক্রিয়া

আপনি পিডিএফপেন (বা পিডিএফটেনপ্রো) এবং ফোল্ডার ক্রিয়া এবং অ্যাপলস্ক্রিপ্টের সাথে অনুরূপ কিছু করতে পারেন। একটি উদাহরণের জন্য https://gist.github.com/prenagha/1355037 দেখুন ।

মার্কো আরমেন্ট ম্যাকের জন্য ওসিআর অ্যাপ্লিকেশনগুলির একটি সমীক্ষা করেছিল এবং আবিষ্কার করেছে যে পিডিএফপেনের দুর্দান্ত ফলাফল রয়েছে এবং এটি স্বয়ংক্রিয়ভাবে সহজ ছিল।

"পিডিএফপেন অ্যাপলসক্রিপ্ট ওসিআর" এর জন্য একটি গুগল অনুসন্ধান অনেকগুলি বিকল্প সন্ধান করবে।


ভাল উত্তর টিজে। হ্যাজেল আশ্চর্যজনক, আমি এটির মালিক এবং আমি এটি প্রচুরভাবে উপভোগ করি। আমি বর্তমানে অ্যাবিয় / কীবোর্ড মাস্ত্রোর মালিক নই, তবে হ্যাজেল + পিডিএফপেন একটি আশ্চর্যজনক কম্বো। সামগ্রিকভাবে, এখানে সমস্ত উত্তর সাধারণত খুব ভাল, এবং কিছুটা ভিন্ন শ্রোতাদের পরিবেশন করে, আমি মনে করি যে হ্যাজেল + পিডিএফপেন মূল সমস্যাটির জন্য ভাল fit স্বীকার করা হয়েছে।
ম্যাগমা

এবিওয়াইওয়াইফাইনরিডার এক্সপ্রেসে +1, এখনই সহজেই সবচেয়ে ভাল ওসিআর এবং আমার নিজের একটি প্রকল্পের জন্য প্রায় এক ডজন
পেরিয়েছি

12

আপনি যা চান তা হ'ল টেস্ট্রাক্ট ওসিআর। এটি একটি ওপেন সোর্স ওসিআর যা গুগল রক্ষণাবেক্ষণ করে এবং বিভিন্ন প্ল্যাটফর্ম সমর্থন করে। এটিতে নেটিভ কমান্ড লাইন ইন্টারফেসও রয়েছে। এটি হ'ল আপনি যা খুঁজছেন এবং ম্যাক পোর্ট প্রকল্পের পাশাপাশি হোমব্রু থেকে উপলব্ধ

প্রকল্পের হোম: https://github.com/tesseract-ocr

ওএস এক্সে কীভাবে ইনস্টল করবেন: http://blog.matt-swain.com/post/26419042500/installing-tesseract-ocr-on-mac-os-x-lion

ব্যবহারের উদাহরণ: tesseract -l eng input.pdf output


চমৎকার প্রকল্প। আমার পরীক্ষাগুলিতে স্বীকৃতিটি ছিল দুর্বল, তবে আমি নিশ্চিত যে এটির সূক্ষ্ম সুরতে আমার অক্ষমতার উপর নির্ভর করে। আমি একটি অলস সমাধানের সন্ধান করছিলাম, তবে আপনি যদি আরও নিয়ন্ত্রণ চান এবং এটিতে সময় উত্সর্গ করতে পারেন তবে এটি একটি দুর্দান্ত পছন্দ হতে পারে।
ম্যাগমা

অধিক বর্তমান মালিকানাধীন অ্যাপ্লিকেশনগুলির তুলনায় পরীক্ষামূলক খুব ভাল হয় না। বিশেষত এটির এনকোডিং এবং গণিতে সমস্যা রয়েছে, প্রায়শই প্রচুর গ্রীক অক্ষর মন্থন করে।
টেকজেন

ওএস এক্স সংস্করণ পিডিএফ ইনপুট অনুমতি দেয়? উইন্ডোজ সংস্করণ না।
ডগ

8

দাবি অস্বীকার : কোনও ওসিআর সমাধান নয় (তবে এই উত্তরটি পিডিএফ থেকে পাঠ্য উত্তোলনের জন্য এখনও কার্যকর)

অ্যাপাচি টিকা নামে একটি অ্যাপাচি সফটওয়্যার ফাউন্ডেশন প্রকল্প রয়েছে :

একটি সরঞ্জামকিট বিদ্যমান পার্সার লাইব্রেরিগুলি ব্যবহার করে বিভিন্ন নথি থেকে মেটাডেটা এবং কাঠামোগত পাঠ্য সামগ্রী সনাক্ত করে এবং এটি নিষ্কাশন করে

তারা পিডিএফ বক্স ব্যবহার করে পিডিএফ পাঠ্য নিষ্কাশন সমর্থন করে :

নতুন পিডিএফ ডকুমেন্ট তৈরি করতে, বিদ্যমান নথিগুলিতে হেরফের এবং ডকুমেন্টগুলি থেকে সামগ্রী উত্তোলনের ক্ষমতাকে মঞ্জুরি দেয়। অ্যাপাচি পিডিএফবক্সে বেশ কয়েকটি কমান্ড লাইন ইউটিলিটিও রয়েছে

এবং তারা সম্প্রতি ওসিআরের পক্ষে সমর্থনও করেছে (টেসারাকের মাধ্যমে)

একটি পাঠ্য ভিত্তিক সমাধানের জন্য, পিডিএফবক্স একটি পিডিএফ থেকে পাঠ্য উত্তোলনের জন্য খুব সহজ করে তোলে:

  • Https://pdfbox.apache.org/downloads.htmlpdfbox-app থেকে প্যাকেজটি ডাউনলোড করুন
  • ExtractTextএটিতে আদেশটি চালান :

    java -jar pdfbox-app-xyzjar ExtractText myNiceBook.pdf myNiceBook.txt

এটিতে আরও কিছু দুর্দান্ত অপশন রয়েছে যা আপনি এক্সট্রাক্ট টেক্সট ডক্সে দেখতে পারেন ।


পাঠ্য উত্তোলনের জন্য অবশ্যই একটি দুর্দান্ত বিকল্প, তবে আমি দেখতে পাচ্ছি এমন কোনও ওসিআর ক্ষমতা নেই।
ম্যাগমা

1
@ ম্যাগমা ওসিআর এর অর্থ "অপটিক্যাল চরিত্রের স্বীকৃতি", অবশ্যই "ওসিআর ক্ষমতা" রয়েছে। এখন আপনাকে পরিষ্কার করা দরকার: ভিজিএ ক্যাম, দুর্বল স্ক্যানার বা দূরবর্তী চিত্রের মতো উত্পাদিত দুর্বল-রেজোলিউশন চিত্র থেকে পাঠ্য বের করা আপনার সমস্যা? তারপরে আপনার সমস্যাটি আলাদা এবং সুপার-রেজোলিউশনের মতো বিষয়গুলির শারীরিক বিবেচনা প্রয়োজন। দয়া করে আরও সুনির্দিষ্ট এবং খাটো প্রশ্ন জিজ্ঞাসা করুন যাতে তাদের উত্তর দেওয়া যায়। আমি আপনাকে চাইলে একটি বৈশিষ্ট্যে এই প্রশ্নটি সহজ করার পরামর্শ দিই। আপনি আরও কিছু চান, একটি নতুন প্রশ্ন জিজ্ঞাসা করুন।
এইচ এইচ

3
@hhh, একটি জিনিস বাইনারি ফাইল (যেমন একটি পিডিএফ) থেকে পাঠ্য আহরণ করছে যাতে বাইনারি ফর্ম্যাটটি বিশ্লেষণ করে এটি ব্যবহারযোগ্য এবং পঠনযোগ্য। এটি সম্পর্কে অপটিক্যাল কিছুই নেই। পাঠ্যটি ইতিমধ্যে রয়েছে, এই ইউটিলিটিগুলি কেবল এটি বের করে যাতে এটি আপনার চোখে সহজ হয়, তাই কথা বলতে। অপটিক্যাল চরিত্রের স্বীকৃতি পৃথক যে এটি একটি বিটম্যাপে পিক্সেলগুলির ধরণগুলি সনাক্ত করতে চেষ্টা করে এবং এগুলি সম্পর্কে যথাযথ ধারণা দেয় যে এটি একটি অনুরূপ পাঠ্য খণ্ড তৈরি করতে পারে।
ম্যাগমা

এটি মূল প্রশ্নের উত্তর দেয় না। AFAICT, pdfbox-app ওসিআর করে না।
ফিউমুরমেল

5

আমি ডিভন্টিঙ্ক প্রো অফিসকে সুপারিশ করব । এটি একটি দুর্দান্ত অ্যাপ্লিকেশন এবং খুব ভাল অ্যাপলস্ক্রিপ্ট সমর্থন রয়েছে support হায়রে কেবল 'প্রো অফিস' সংস্করণে ওসিআর ক্ষমতা রয়েছে - সুতরাং আপনাকে £ 100 ডলার (150 ডলার) দিতে হবে।

আপনি যদি এটি কেবল স্ক্রিপ্টেড ওসিআরের জন্য ব্যবহার করেন তবে এটি অত্যধিক দক্ষ হবে - তবে এটি একটি খুব ভাল অ্যাপ।

[সম্পাদনা] - আহ কেবল আপনার পোস্টটি পুনরায় পড়ুন - এটি অবশ্যই অতিরিক্ত পরিমাণে হবে!

আপনি যদি কেবল শেল থেকে ওসিআর চান, আপনি এমন অ্যাববিওয়াইয়ের সাথে কথা বলতে চেষ্টা করতে পারেন যার ইঞ্জিন ডিভন লাইসেন্স:

http://www.abbyy-developers.com/en:tech:samples:commandline_ocr


যদিও ওএস এক্সের ডিভিওন্টিঙ্ক প্রো অফিস একটি ওভারকিল, এটি আকর্ষণীয়। যদি বিকাশকারীরা ওএস এক্স এবং আইওএসের মাধ্যমে এটি ডিজাইন করে তবে এটি কাজ করতে পারে (ইউআইটিকে আরও সাধারণ রাখছে) - আপনি কি এরকম কিছু জানেন? যদিও দুর্দান্ত ধারণা - তাই প্রো সংস্করণটি স্বয়ংক্রিয়ভাবে স্ক্রিনশট এবং পিডিএফ-এর মতো সমস্ত ধরণের জিনিসগুলিতে ওসিআর স্তর যুক্ত করে? এবং ব্যবহারকারী কোনওভাবে এটি "স্ক্রিপ্ট" করতে পারেন?
এইচএইচ

2
হ্যাঁ - অ্যাপ্লিকেশনটিতে একটি ভাল অ্যাপলস্ক্রিপ্ট ডিকশনারি রয়েছে, যা অন্যান্য জিনিসের মধ্যেও আপনাকে অ্যাপে সঞ্চিত চিত্রগুলি সন্ধানযোগ্য পিডিএফে রূপান্তর করতে দেয় allows
ডিগ্রি

ধরুন আমি ওএস এক্স এর সাথে আইফোন বা স্ক্রিনশটগুলি নিয়ে ছবিগুলি এনে একটি ফোল্ডার প্রজেক্টএতে রেখেছি, ডিভিওন্টিং কি ভাষা নির্দিষ্ট না করেও ওসিআর স্তরটি স্বয়ংক্রিয়ভাবে তাদের সাথে যুক্ত করে? মনে করুন আপনি এগুলি একটি ড্রপবক্সে রেখেছেন এবং তারপরে ফোল্ডারটি স্বয়ংক্রিয়ভাবে চেক করতে ওএসএক্সে ডিভন্টহিংক তৈরি করেছেন, আপনি তখন এটি ওএস এক্স এবং আইওএসের মাধ্যমে কাজ করতে পারবেন? যদি এটি ভালভাবে করা হয় তবে এটি একটি আকর্ষণীয় ধারণা ... +1
এইচএইচ

এক উপায়ে, এটি এভারনোটের মতো শোনাচ্ছে যেখানে এভারনোট ওসিআর যুক্ত করে কিন্তু এর মতো রফতানি করার অনুমতি দেয় না। এই সফ্টওয়্যার থেকে ওসিআর দিয়ে আপনার প্রকল্পগুলি রফতানি করা সম্ভব? যদি তা না হয় তবে কিছু খুব সাধারণ ওসিআর লাইব এবং তারপরে কিছু ভাষাগত বিশ্লেষণ lib সবচেয়ে ভাল কাজ করতে পারে। সম্ভবত অন্যটি এবিওয়াই, আমি এখনও জানি না।
এইচএইচ

2
: এটা অনেকগুলি ভাষায় চিনতে পারে i.stack.imgur.com/buDLI.png
ডিগরি

5

আপনি পাঠ্য ফাইলে রূপান্তর করে আপনার বিদ্যমান পিডিএফটিকে অনুসন্ধানযোগ্য করে তুলতে পারেন। আপনি যে অন্তত জন্য প্রয়োজন ImageMagick , প্রস্তুতকারী Ghostscript (পিডিএফ রূপান্তর জন্য) এবং টেসেরাক্ত OCR করুন হাতিয়ার।

কিছু কমান্ড-লাইনের উদাহরণ:

$ wget http://www.fmwconcepts.com/misc_tests/pdf_tests/test.pdf
$ convert -density 300 -depth 8 test.pdf test.png
$ tesseract test*.png test.txt
$ grep -i --color=auto the test*.txt
**The** details as told by surviving crew members, to **the** German publication Spiegel and published on ABC's

এটি আপনার প্রয়োজনে আরও বাড়ানো যেতে পারে।

প্রয়োজনীয় সরঞ্জামগুলি ইনস্টল করতে, ওএসএক্সে আপনি এটি হোমব্রিউয়ের মাধ্যমে ইনস্টল করতে পারেন :

brew install imagemagick jpeg libpng ghostscript tesseract

লিনাক্স ব্যবহার apt-getবা yumপরিবর্তে brew

আরও ওসিআর সরঞ্জামের জন্য, পরীক্ষা করুন: লিনাক্স সিস্টেমে ওসিআর

সম্পর্কিত:


4

একটি সমাধান যা সহজেই প্রয়োগযোগ্য এবং একই মানের ইনপুট ফাইলের সাথে যুক্তিসঙ্গত আকারের আউটপুট পিডিএফ সরবরাহ করে তা হ'ল ওসিআরমিপিডিএফ:

https://github.com/jbarlow83/OCRmyPDF


এটি দেখতে শীতল সমাধানের মতো মনে হচ্ছে, যদিও আমি ওসিআর ব্যাকএন্ড, টেসারেক্টকে পেয়েছি বরং হতাশাবোধক (এটি অবশ্যই সঠিকভাবে কনফিগার করার ক্ষেত্রে আমার নিজের সীমাবদ্ধতার কারণে)।
ম্যাগমা

আমি ওসিআরমিপিডিএফকে ভালবাসি, নীচে আমার উত্তরটি দেখুন যা কীভাবে এটি ডকারের সাহায্যে দ্রুত এবং বেদাহীনভাবে স্বয়ংক্রিয়ভাবে ইনস্টল করতে এবং ড্রাগ-এ-ড্রপ করে তা ব্যাখ্যা করে।
শে

1

স্ট্যাকওভারফ্লোতে পিডিএফ- পার্সিংয়ের অধীনে পিডিএফবক্স এবং অ্যাপাচি-র টিআইকাএ-র বিষয়গুলি অন্তর্ভুক্ত সম্পর্কিত প্রশ্ন রয়েছে যা পিডিএফবক্স ব্যবহার করে। নীচে রুবি কোড পিডিএফ থেকে লেখার সূচনা করে। এই ধরণের কোডগুলিকে দৃ .়তার সাথে কাজ করার জন্য আপনার যথেষ্ট ভাল রেজোলিউশন থাকা দরকার। সুতরাং বড় রেজোলিউশন সহ একটি ভাল পর্যাপ্ত স্ক্যানার পান এবং তারপরে দেখুন কোনও কোনও সফ্টওয়্যার কাজ করে।

উদাহরণ

  1. https://github.com/yob/pdf-reader/tree/master/examples

থ্রেড

  1. /programming/5217783/pdf-parse-to-text-in-java

  2. /programming/8149179/alternative-to-tika-pdfbox-for-parsing-pdf-in-solr-any-version-later-than-1-4

  3. /programming/320621/ruby-pdf-parsing-gem-library

  4. /programming/15186740/haskell-parsing-reading-content-of-pdf-files

[সম্পাদনা]

আমি এখন আপনার সমস্যাটি বুঝতে পেরেছি কিনা তা নিশ্চিত নই। আপনি বিভিন্ন ধরণের সামগ্রীতে ওসিআর স্তরটি যুক্ত করতে চান যেমন এলোমেলো ফটো, স্ক্রিনশট, ওসিআর স্তর ছাড়াই পিডিএফ ইত্যাদি? আমি সমাধানটি জানি না তবে আমি নিশ্চিত যে কেউ অটোমেটার এবং কিছু ওসিআর সফ্টওয়্যার দিয়ে কীভাবে এটি করবেন তা একটি নির্দিষ্ট প্রশ্ন জিজ্ঞাসা করেছে:

কোনও ওসিআর-সফ্টওয়্যার সহ অটোমেটার-স্ক্রিপ্ট স্বয়ংক্রিয়ভাবে উপাদানগুলিতে ওসিআর যুক্ত করতে?


আবার: আমি ইতিমধ্যে উপস্থিত পাঠ্যকে বিশ্লেষণ বা নিষ্কাশন করতে চাই না। আমি পিডিএফ ফাইলে পাঠ্য (ওসিআর) সনাক্ত করতে দেখছি যা মূলত চিত্র, বিটম্যাপস; এগুলিতে মূলত কোনও লেখা থাকে না।
ম্যাগমা

@ মাগমা দয়া করে আমার আপডেট দেখুন। আপনি ওসিআর স্তরটি সংযোজনটি স্বয়ংক্রিয় করতে চান যাতে আপনি "অনুসন্ধানযোগ্য পাঠ্য" না করেও বিভিন্ন ধরণের নথি অনুসন্ধান করতে পারেন? আপনি যদি এটি করতে পারতেন তবে আপনি ফাইন্ডারে সমস্ত নথি অনুসন্ধান করতে পারেন - আপনি বুঝতে পেরেছেন? আপেল আসন্ন আপগ্রেডগুলিতে এটি না করলে ... আমি অবাক হই ...
এইচএইচ এইচ

আমার প্রশ্নে বলা হয়েছে, হ্যাঁ
ম্যাগমা

1

এই জাতীয় স্ব-পরিচালিত অ্যাপ্লিকেশনটির জন্য, আমি হ্যাজেলের একটি বড় অনুরাগী।

পার্ল বা পাইথনের মতো আরও কমান্ড লাইন ভিত্তিক সরঞ্জাম শেখার প্রয়োজন ছাড়াই এটি স্ক্রিপ্টের ক্রিয়াকলাপকে চূড়ান্ত করে তোলে এবং আপনার পছন্দের ওসিআর ইঞ্জিনের সাথে যুক্ত (আমার বর্তমানে পিডিএফ পেন প্রো হয়) আপনার ফাইলগুলি ন্যূনতম দিয়ে প্রক্রিয়াজাত করতে কোনও সমস্যা হওয়া উচিত নয় অতিরিক্ত মনোযোগ।

এই উভয়ই পরিশোধিত সফ্টওয়্যার, তবে উভয়েরই ইউটিলিটি এই এক মামলার আগেও প্রসারিত। আমার পরিস্থিতিতে, আমার অতীতের স্ক্যান করা রেকর্ডগুলি (এবং চলমান কাগজ) ডিজিটাইজেশনে শ্রমের সাথে জড়িত থাকার সাথে, এই জায়গাগুলির দাম আমি অন্য কোথাও এই প্রোগ্রামিংয়ে ব্যয় করতে পারতাম এবং এখন আমার উভয় সরঞ্জামের মালিক হওয়ার কারণে আমি আরও অনেক কাজ করতে পারি তাদের।



0

আমি ব্যাচে ওসিআর থেকে অ্যাডোব অ্যাক্রোব্যাট ব্যবহার করি। আমার ডুপ্লেক্স স্ক্যানার স্ক্যান করার পরে ওসিআর করতে পারে তবে অ্যাক্রোবটে ওসিআর প্রযুক্তিটি আমার মতে আরও নির্ভুল। আমি কেবল সেখানে ফোল্ডারের দিকে ইঙ্গিত করছি যেখানে কোনও ওসিআর নেই তখন অ্যাক্রোব্যাট পিডিএফটিকে একটি পাঠ্য স্তর সহ এখন অনুসন্ধানযোগ্য পিডিএফ হিসাবে সংরক্ষণ করে। যদি আমি কমান্ড লাইনের মাধ্যমে ওসিআর করতে চাইতাম তবে আমি কোনও উপায় জানি না তবে আমি অটোহোটকি ব্যবহার করে জিইউআই শেষটি স্বয়ংক্রিয় করতে পারি। কমান্ড লাইনের মতো নির্ভরযোগ্য বা দ্রুত নয়, আপনি জিইউআই মিথস্ক্রিয়া হ্রাস করার জন্য একটি ওয়ার্কফ্লো অ্যাকশন সেটআপ করার পরে এটি কাজ করে।

ম্যাকের জন্য, আপেল স্ক্রিপ্ট পিসিতে অটোহোটকি যা করে তা করে যদিও আমি এখনও আমার ম্যাকটিতে চেষ্টা করি নি।

অটো হট কী একটি রেকর্ডার নিয়ে আসে তাই বেশিরভাগ স্ক্রিপ্ট রাইটিং আপনার জন্য খাওয়ার জন্য পরিমার্জনের জন্য সামান্য কিছুটা সম্পাদনা করে এবং সম্ভবত আপনি এটি চান তবে লুপ করে।

আমি ওসিআরিং চিত্রগুলি পরীক্ষা করে দেখছি তবে এখনও অ্যাক্রোব্যাটের মাধ্যমে প্রক্রিয়াটি পুরোপুরি স্বয়ংক্রিয়ভাবে চালিত করি নি। কমান্ড লাইনটি আদর্শ তবে একটি মানসম্পন্ন ওসিআর ইঞ্জিন খুঁজে পাওয়া যায় নি যা অ্যাক্রোব্যাটকে ছাড়িয়ে গেছে তাই আমি আপাতত অ্যাক্রোব্যাটের সাথে লেগে আছি।


0

আমি সম্প্রতি হোঁচট খেয়েছি : http://ocrkit.com/faq.html

যদিও আপনাকে 14 দিন পরে দিতে হবে


1
ভিন্ন জিজ্ঞাসা করতে স্বাগতম! আমরা সর্বোত্তম উত্তরগুলি সন্ধান করার চেষ্টা করছি এবং সেগুলির উত্তরগুলি সেগুলি সেরা কেন সে সম্পর্কিত তথ্য সরবরাহ করবে। আপনি যে সফ্টওয়্যারটি সুপারিশ করেছেন সেটিকে অন্যের চেয়ে কেন ভাল বলে মনে করেন তা ব্যাখ্যা করুন। সাধারণভাবে, কেবলমাত্র লিঙ্কযুক্ত উত্তরগুলি মুছে ফেলার পক্ষে সংবেদনশীল তাই আপনি সর্বদা আপনার উত্তরটি সমস্ত প্রাসঙ্গিক তথ্যে অন্তর্ভুক্ত করতে চান। মানসম্পন্ন উত্তর কীভাবে প্রদান করা যায় তার উত্তর কীভাবে দেখুন See
fsb

0

আমি ডকার ব্যবহার করে উচ্চমানের ড্র্যাগ ও ড্রপ রূপান্তর পেয়েছি।

আপনি যদি:

  1. আপনার ম্যাকের জন্য ডকার ইনস্টল করুন এবং
  2. তারপরে একটি নতুন অটোমেটার অ্যাপ্লিকেশন তৈরি করুন
  3. "শেল স্ক্রিপ্ট চালান" ক্রিয়াটির ভিতরে এই বিষয়বস্তুগুলির সাথে। পাস ইনপুট চয়ন করুন:"as arguments"

/bin/bash স্ক্রিপ্ট পাঠ্য:

cd "`dirname "$1"`"
/usr/local/bin/docker run --rm -v "$(pwd):/home/docker" jbarlow83/OCRmyPDF --force-ocr "`basename "$1"`" "`basename -s .pdf "$1"`-ocr.pdf"

তারপরে আপনার পিডিএফগুলি টেনে এনে ছেড়ে দেওয়া ভাল be

আমি কল্পনা করি সহজেই অন্য কোথাও অনুলিপি করার জন্য অটোমেটরের কাছে কোনও ফাইল ফেরাতে এটি সহজেই সংশোধন করা যেতে পারে। জরিমানা OCRmyPDF ডকার প্যাকেজ সম্পর্কে আরও বিশদ। এবং প্রধান সরঞ্জাম (এছাড়াও একটি পৃথক উত্তরে উল্লিখিত)।

আপনি এটিকে ইনপুট হিসাবে "নির্দিষ্ট সন্ধানকারী আইটেমগুলি পান" ক্রিয়া দিয়ে স্বয়ংক্রিয়রে এটি পরীক্ষা করতে পারেন।

ওসিআরমিপিডিএফ (অদৃশ্যভাবে) এর জন্য ডকার ইমেজগুলি ডাউনলোড করার জন্য এটি প্রথমবার চালিত হওয়ার সময় এটি আরও বেশি সময় নেয়। টার্মিনালে, আপনি docker pull jbarlow83/ocrmypdfপ্রথম রান দ্রুত করতে বিকল্পভাবে চালাতে পারেন। একটি সাধারণ রান প্রতি হাই ডিপিআই পৃষ্ঠায় প্রায় 10 সেকেন্ড সময় নেয় তবে টেবিল বা ডায়াগ্রাম থাকলেও স্বয়ংক্রিয়ভাবে পাঠ্য-থেকে-বাকরূর্বস্বযোগ্য ফলাফল রয়েছে। ওসিআরিংয়ের আগে, আমি সেজদা ব্যবহার করে ক্রপ করি যাতে অন্য পৃষ্ঠাগুলি থেকে ননজেস মার্জিন শব্দগুলি সরানো হয়।

--force-ocrযুক্তি উপেক্ষা করা এবং কোন তার আগে OCR করুন প্রচেষ্টা যা আমার ক্ষেত্রে সাধারণত আংশিক এবং বেহুদা হয় ওপর দিয়েই লিখতে টুল বলে।


0

ওসিআরকিটের অ্যাপলস্ক্রিপ্ট সমর্থন এবং একটি সিএলআই উভয়ই রয়েছে। তাদের সহায়তা পৃষ্ঠা থেকে :

AppleScript

আপনার নির্দিষ্ট কর্মপ্রবাহে এটি সংহত করতে আপনি ওসিআরকিটকে স্ক্রিপ্টও করতে পারেন। উদাহরণস্বরূপ, এমএফপি কপি মেশিন, ইত্যাদি থেকে ভাগ করা ফোল্ডারের মাধ্যমে আগত ফাইলগুলি প্রক্রিয়া করুন এবং ওসিআরকিটকে খোলার জন্য বলুন এবং এভাবে প্রক্রিয়াটি অ্যাপলস্ক্রিপ্টের মাধ্যমে হয়:

tell application "OCRKit"
   -- the wonders of AppleScript POSIX path handling, ...
   open "Users:admin:Desktop:orderform.pdf"
   open POSIX path of "/Users/Admin/Desktop/orderform.pdf"
end tell 

কমান্ড লাইন

যেহেতু ওসিআরকিট সংস্করণ 2.5 ডাইরেক্ট কমান্ড লাইন স্ক্রিপ্টিং সমর্থিত। এটি ব্যাচ প্রসেসিংয়ে ওসিআরকিটের ব্যবহারকে ব্যাপকভাবে সরল করে তোলে, আরও বিকল্পগুলি সেট করতে দেয় এবং অ্যাপলসক্রিপ্টের চেয়ে আরও দৃ rob় এবং ক্রস প্ল্যাটফর্ম।

OCRKit.app/Contents/MacOS/OCRKit \ 
    --lang en | de | fr | es | ... \
    --format pdf | html | rtf | text \
    --no-progress \
    --output out-file in-file

যেহেতু ওসিআরকিট সংস্করণ 16.9 অতিরিক্ত কমান্ড লাইন বিকল্পগুলি সমর্থিত:

-r, --recursive directory

নতুন ফাইলগুলির জন্য ডিরেক্টরি পুনরাবৃত্তভাবে স্ক্যান করুন। পাঠ্য স্তর বা ভেক্টর গ্রাফিক্স সহ ওসিআরকিট থেকে ফাইলগুলি এড়িয়ে যায়।

--pattern "regex"

পুনরাবৃত্তি স্ক্যানের সময় প্যাটার্ন ফাইলের সাথে মিল রাখে। ডিফল্ট %.pdf$, টিআইএফএফের জন্য প্রস্তাবনা%.tiff?$

--log file

ফাইলটিতে পুনরাবৃত্ত স্ক্যান করার সময় লগ ফাইলের তথ্য এবং পরিসংখ্যান লিখুন।

--password secret

ব্যাচ প্রসেসিংয়ের সময় পিডিএফ ফাইলগুলি ডিক্রিপ্ট করার জন্য গোপন পাসওয়ার্ড ব্যবহার করুন।

--test-run [ fast ]

পিডিএফ ফাইলগুলি পরীক্ষা করতে বা মোট প্রক্রিয়াজাতকরণ সময় অনুমান করার জন্য পৃষ্ঠা গণনা অর্জনের জন্য কেবল পরীক্ষার ব্যাচ প্রসেসিং চালান। "দ্রুত" চিত্র এবং ভেক্টর বিশ্লেষণের জন্য সমস্ত পৃষ্ঠায় না গিয়ে কেবল প্রতিটি ফাইলের প্রথম পৃষ্ঠাগুলি পরীক্ষা করবে।

--tag name

ব্যাচ প্রসেসিংয়ের সময় ফাইলগুলির প্রসেসিং স্থিতিতে ট্যাগ করতে বর্ধিত বৈশিষ্ট্যের নাম ব্যবহার করুন। macos:OCRKit (%s)পরিবর্তে নেটিভ ম্যাকোস ফাইন্ডার ট্যাগ ব্যবহার করবে, বা কেবল macos:OCRKitরাষ্ট্রীয় বৈশিষ্ট্য অন্তর্ভুক্ত করবে না। রাষ্ট্র অ্যাট্রিবিউট ক্রম আছেন: started, analyzed, processed, এবং এছাড়াও হতে পারে encrypted

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.