অনেক পিডিএফ ফাইলের জন্য ব্যাচের ওসিআর (ইতিমধ্যে ওসিআর করা হয়নি)? [বন্ধ]


9

আমি গুগল ডেস্কটপ অনুসন্ধান (আমি ভিস্টায় আছি) ব্যবহার করি এবং আমার সমস্ত পিডিএফ ফাইল আমার সংরক্ষণাগার ফোল্ডারে স্বীকৃত নয়। এটি স্বাভাবিক যেহেতু " স্ক্যান করা চিত্রগুলি থাকা পিডিএফ ফাইলগুলি " ইনডেক্স না করা হয় ( http://desktop.google.com/support/bin/answer.py?hl=en&answer=90651 )

সুতরাং আমি আমার অনেকগুলি পিডিএফ ফাইলগুলি ওসিআর করতে চাই যা ইতিমধ্যে ওসিআর করা হয়নি। আমার লক্ষ্য: আমি প্রোগ্রামটিকে একটি ফোল্ডার দিয়েছি এবং এটি সাবফোল্ডারগুলিতে পিডিএফ ফাইলগুলি পিডিএফ-ওসিআরড ফাইলগুলিতে রূপান্তরিত করতে একা অনুসন্ধান করে।

দ্রষ্টব্য: অতীতে, যদি কোনও পিডিএফ ফাইল পাসওয়ার্ড সুরক্ষিত থাকে তবে আমি অন্য ব্যাচের (অর্থ প্রদানের) সরঞ্জাম দিয়ে পাসওয়ার্ডটি সরিয়েছি: verypdf.com "pwdremover" http://www.verypdf.com/pwdremover/

কোন (খুব বেশি ব্যয়বহুল নয়) ধারণা?

আমি ইতিমধ্যে চেষ্টা করেছি: সেই সময় এক্সপি-তে ফিনারিডার 6 প্রো, তবে কোনও ব্যাচ প্রসেসর অন্তর্ভুক্ত ছিল না ... পেপারফিল পেপারফিল.নেট যা পরীক্ষামূলক http://code.google.com/p/tesseract-ocr/ ব্যবহার করে । তবে ওসিআর হ'ল পিডিএফ কেবল পাঠ্য, পিডিএফ থেকে পিডিএফ নয়! এখানে আরও একটি প্রকল্প রয়েছে http://code.google.com/p/ocropus/

আগাম ধন্যবাদ ;)


এক বছর পরে আপডেট: হ্যালো, স্পষ্টতই "এবিবিওয়াই হট ফোল্ডার এবং সময়সূচী" সফ্টওয়্যারটি কেবলমাত্র এবিবিওয়াই ফিনারিডার (> বনাম 9.0) এর অন্তর্ভুক্ত রয়েছে, কর্পোরেট এবং সাইট লাইসেন্স সংস্করণগুলিতে সহায়তা করতে পারে (আমি এটি চেষ্টা করি নি: 600 $!)! (); এছাড়াও টেসেরাক্ত (আমার জন্য ডান এখন সাফল্য ছাড়া এখন Windows এ কাজ করা উচিত!
ERB

এছাড়াও, এবিওয়াই ফাইনআরডার (> ভি। 9.0) প্রো সংস্করণে একটি অটোমেশন টাস্ক রয়েছে: আপনি মূল ফোল্ডারটি + এটির সাবফোল্ডার চয়ন করেন এবং এটি কাজ করে। তবে মূল সমস্যাটি হ'ল এটি একবারে সমস্ত পিডিএফ খুলবে (!!), তারপরে সেগুলি (= অক্টোবর) পড়ুন এবং তারপরে একটি অনন্য পিডিএফ ফাইল সংরক্ষণ করুন! সুতরাং আপনার যদি শত শত পিডিএফ থাকে তবে জঘন্য জিনিসটি আমার পক্ষে কাজ করছে না! ; (খুব খারাপ, কী দুঃস্বপ্ন
!;

উত্তর:


6

TL; ড? নুয়েন্স পাওয়ারপিডিএফ অ্যাডভান্সড দিয়ে শুরু করুন।

আমি ডিসেম্বরে 2014 সালে বড় প্রকল্পের প্রস্তুতিতে ওসিআর সফ্টওয়্যারটি মূল্যায়ন করেছি - ব্যাচগুলিতে কয়েক মিলিয়ন ইংলিশ ভাষার পৃষ্ঠাতে ওসিআর। আপনি কয়েকশো ডলার ব্যয় করতে ইচ্ছুক হলে আপনার কাছে অনেকগুলি বিকল্প রয়েছে; পরীক্ষামূলক সংস্করণগুলি আপনাকে কয়েকশ পৃষ্ঠাগুলিতে রূপান্তর করতে হলে আপনাকে এনে দিতে পারে।

অনেকগুলি সফ্টওয়্যার প্যাকেজগুলি সমস্ত ইনপুট ফাইলগুলি লোড করতে চায়, ওসিআর করে এবং মেসকে একক আউটপুটকে একত্রিত করে। আইএমএইচও এটি মারা গেছে, আমার কেও চাইবে না যে এটি কে চাইবে। আমি সত্য ব্যাচের সন্ধান করছিলাম: প্রতিটি ইনপুট ফাইলের জন্য একটি আউটপুট ফাইল, অপরিবর্তিত অপারেশন, কোনও কিছুর জন্য থামবে না, আমাকে শেষে একটি বিশদ প্রতিবেদন দিন। স্পোলার সতর্কতা: আমি এটি পাইনি।

বর্ণানুক্রমিক ক্রমে প্যাকেজগুলি অনুসরণ করে। নীচে দেখানো দামগুলি তালিকাভুক্ত তবে ছাড় ছাড়। নুনের দানা দিয়ে নির্ভুলতা সম্পর্কে আমার মন্তব্যগুলি নিন; আপনার ইনপুটগুলি আমার ইনপুটগুলির মতো হবে না তাই আপনার মাইলেজটি অবশ্যই পৃথক হবে।

এবিওয়াই ফিনারিডার 12 কর্পোরেট: $ 400 ব্যাচের বৈশিষ্ট্যটিকে "টাস্ক ম্যানেজার" বলা হয় এবং এটি সরঞ্জাম মেনুতে রয়েছে। এটি সাবফোল্ডার সহ ফোল্ডার থেকে ফাইলগুলি প্রক্রিয়া করবে; এটি আনন্দের সাথে প্রতিটি ইনপুট ফাইলের জন্য পৃথক আউটপুট ফাইল তৈরি করবে। এটি ইনপুট ফোল্ডার স্তরক্রম সংরক্ষণে সক্ষম বলে মনে হচ্ছে না; সমস্ত আউটপুট ফাইল একই আউটপুট ফোল্ডারে গিয়েছিল। আমার পরীক্ষাগুলিতে যথার্থতা বেশি ছিল, তবে আমি এখানে তালিকাভুক্ত প্যাকেজগুলির মধ্যে এখনও সর্বনিম্ন।

অ্যাডোব অ্যাক্রোব্যাট একাদশ: $ 300 ব্যাচের বৈশিষ্ট্যটিকে "পাঠ্য স্বীকৃতি / একাধিক ফাইল ইন" বলা হয় যা সরঞ্জামগুলিতে (তৃতীয় সরঞ্জামদণ্ড, মূল পর্দার উপরের ডান দিকে) ক্লিক করে পাওয়া যাবে। প্রক্রিয়া সাবফোল্ডার, প্রতিটি ইনপুট জন্য একটি আউটপুট। কোনও পাসওয়ার্ড-সুরক্ষিত ফাইলের সন্ধান পেলে প্রম্পট থামায় এবং রাখে। ডিফল্টরূপে ইনপুট ডিরেক্টরি ট্রি সংরক্ষণ করে না; ইনপুট হিসাবে একই ফোল্ডারে আউটপুট লিখে তা করতে পারে। আমার পরীক্ষাগুলিতে নির্ভুলতা বেশ ভাল ছিল।

ন্যানান্স ওমনিপেজ আলটিমেট (ওরফে ভি 19): 500 ডলার। ব্যাচের বৈশিষ্ট্যটিকে "ডকুডাইরেক্ট" বলা হয় এবং এটি একটি পৃথক প্রোগ্রাম যা প্যাকেজটির সাথে আসে। এটি ফোল্ডার এবং সাবফোল্ডারগুলি প্রক্রিয়া করবে; যদি আপনি বৈশিষ্ট্যগুলি ঠিক ঠিক নির্বাচন করেন তবে এটি আউটপুট অঞ্চলে ইনপুট ডিরেক্টরি গাছ সংরক্ষণ করবে। প্রতিটি ইনপুট জন্য একটি আউটপুট। একটি সুরক্ষিত ফাইলের জন্য স্টপ এবং পাসওয়ার্ডের দাবি করে। সমান্তরাল কাজগুলি চালনার জন্য মাল্টি-কোর প্রসেসরের দুর্দান্ত সুবিধা নেওয়া বলে মনে হচ্ছে। সঠিকতা ছিল চমৎকার । তবে ব্যাচ প্রসেসরের স্থিতিশীলতা খুব কম; একটি অস্পষ্ট দলিল এটিকে তার ট্র্যাকগুলিতে থামিয়ে দেবে, পুনরুদ্ধার করতে পারবে না, সহজেই একটি ব্যাচকে লেনদেন করবে।

নুন্যাস পাওয়ারপিডিএফ অ্যাডভান্সড ভি 1.1 (ওমনিপেজ চূড়ান্তের উত্তরসূরি): $ 150 ব্যাচের বৈশিষ্ট্যটিকে "ব্যাচ রূপান্তরকারী" বলা হয় এবং এটি অ্যাডভান্সড প্রসেসিং ট্যাবের অধীনে মূল প্রোগ্রাম থেকে পৌঁছনীয়। এটি ফোল্ডার এবং সাবফোল্ডারগুলি প্রক্রিয়া করবে, আউটপুটটিতে ইনপুট কাঠামো সংরক্ষণ করবে। প্রতিটি ইনপুট জন্য একটি আউটপুট। একাধিক কোর ব্যবহার করবে, তবে আক্রমণাত্মকভাবে নয়; এর অর্থ কী আমি কোনও মাল্টি-কোর হোস্টকে পূরণ করতে পারি না get যথাযথতা উদ্বিগ্ন , ওমনিপেজের চেয়ে ভাল বা ভাল। খারাপ বা अस्पष्ट ফাইলগুলির কারণে এটি স্তব্ধ হয়ে যায়নি। ব্যাচ প্রসেসর আউটপুট ডিরেক্টরিতে একটি প্লেইন-পাঠ্য লগ ফাইল লিখে ( শক )।

ReadIris কর্পোরেট 14: $ 600। ব্যাচ বৈশিষ্ট্যটি "ব্যাচ ওসিআর" আইটেম দ্বারা চালিত হয়েছে যা মূল স্ক্রিনের "ফাইল থেকে" বোতামে ক্লিক করে প্রকাশিত হয়। এটি ফোল্ডার এবং সাবফোল্ডারগুলি প্রতিটি ইনপুটের জন্য একটি আউটপুট প্রসেস করবে এবং ডিফল্টরূপে আউটপুট ডিরেক্টরি কাঠামোটি ইনপুট ডিরেক্টরি কাঠামোর সাথে মেলে। একটি অবৈধ ফাইলটিতে থেমে থাকা এবং ব্যবহারকারীদের ইনপুট দাবি; চিত্রটি ওসিআর-ইং দ্বারা দৃশ্যত সমস্ত অভিযোগ নথিভুক্ত অভিযোগ ছাড়াই প্রক্রিয়া করে ing যথাযথতা খুব ভাল ছিল, অ্যাক্রোব্যাট সমতুল্য।

আমার ডেস্কটপ মেশিনে (কেবলমাত্র ডুয়াল কোর), আমার নির্বাচিত ইনপুটগুলি সহ, প্রতিটি প্যাকেজের কোনও পৃষ্ঠা প্রক্রিয়া করার জন্য কমপক্ষে 3 সেকেন্ডের প্রয়োজন; কেউ কেউ আরও নিয়েছে। আরও কোর সহ একটি মেশিনে এটিকে চালিত করতে সক্ষম হতে পারে।

প্রচুর পরিমাণে গটচেস, তাদের জন্য পরিকল্পনার বিষয়ে নিশ্চিত হন: অবৈধ পিডিএফ (কিছু প্যাকেজ বন্ধ রয়েছে), পাসওয়ার্ড-সুরক্ষিত পিডিএফ (কিছু প্যাকেজ থামায়, অন্যরা যে কোনওভাবে রূপান্তর করে!) এবং ঘোরানো পৃষ্ঠাগুলি (প্রতিকৃতির পরিবর্তে ল্যান্ডস্কেপ)। আপনি যদি ব্যাচটি সম্পূর্ণরূপে চালিত করতে চান তবে আপনাকে খুব যত্ন সহকারে এই প্যাকেজগুলির জন্য ইনপুট অঞ্চলটি প্রস্তুত করতে হবে। পিডিএফ থেকে সুরক্ষা অপসারণ করার জন্য ঘোস্টস্ক্রিপ্ট প্যাকেজের মুদ্রণ-থেকে-পিডিএফ বৈশিষ্ট্যটি দেখুন।

বড় ব্যাচ চালানো স্মৃতিশক্তি-অবসন্নতা এবং ঝুলন্ত সমস্যা দেখা দিতে পারে, এমনকি এটি করা উচিত নয় (আর্গ - সম্ভবত মেমরি ফাঁস)। আপনি যদি কোনও ধরণের অটোমেশন করছেন তবে, একটি বড় সমস্যা আবিষ্কার হয়েছে যে আসলে কী ঘটেছে - কোন নথিগুলি প্রক্রিয়া করা যায় নি, যা প্রক্রিয়া চলাকালীন ব্যর্থ হয়েছিল ইত্যাদি It's "লগ ফাইল".

পরিশেষে কোনও অর্থ পরিশোধকারী গ্রাহক হিসাবে সমর্থন পাওয়া এই গণ-বাজার প্যাকেজগুলির পক্ষে বেশ কঠিন। উদাহরণস্বরূপ, আমি কোনও বৃহত্তর ইনপুটগুলির জন্য ঝুলন্ত একটি প্যাকেজ (যা নামহীন থাকবে) সম্পর্কে একজন সম্মানিত গ্রাহক সহায়তা প্রতিনিধিকে অভিযোগ করেছি। আমি ছেড়ে দেওয়ার আগে 36 ঘন্টা অপেক্ষা করেছি :)। তারা মিষ্টিভাবে ব্যাচের আকার 300 ডকুমেন্টের মধ্যে সীমাবদ্ধ করার পরামর্শ দিয়েছিল। এটি আমার কাছে সম্পূর্ণ অগ্রহণযোগ্য ছিল, তবে ওহে এটা কি সমর্থন টিকিট বন্ধ ডাং দ্রুত পেয়েছে, তাই না? এবং এটাই সব কিছু, তাই না? দীর্ঘশ্বাস.

আছে HTH


হ্যালো ক্রিসলট, আপনার বিস্তারিত উত্তরের জন্য আপনাকে ধন্যবাদ। ;) আমি প্রসংসা করি. ;) আমরা 4 বছরেরও বেশি পরে এবং অবিশ্বাস্যরূপে এখনও কোনও সফ্টওয়্যার সঠিক নয় যাতে কোনও ফোল্ডারে স্বয়ংক্রিয় ওসিআর করা যায় এবং ত্রুটিযুক্ত লগ ফাইলটি একবার শেষ হয়ে গেলে মুক্তি দিতে পারে! ... সম্ভবত আমি ন্যুয়েন্সের সাথে যোগাযোগ করার চেষ্টা করব।
এরব

আপাতত আমি অ্যাক্রোব্যাট প্রো এবং বেশ কয়েকটি ফ্রিওয়্যারের একটি পুরানো সংস্করণ ব্যবহার করি। এটি একটি দীর্ঘ প্রক্রিয়া। প্রয়োজনে আমি এটি বিশদ করতে পারি! তবে কাজটি যতটা সম্ভব সম্পন্ন হয়! ;)
এরব

3

অ্যাডোব অ্যাক্রোব্যাট পিডিএফগুলির ফোল্ডারটি প্রক্রিয়া করবে এবং বেশিরভাগ অ্যাডোব পণ্যগুলির মতো 30 দিনের ট্রায়াল রয়েছে
ফাংশনটি 'ডকুমেন্ট' মেনুতে অবস্থিত:

দস্তাবেজ> ওসিআর পাঠ্য নিবন্ধ> ওসিআর ব্যবহার করে একাধিক ফাইলে পাঠ্য সনাক্ত করুন

যেখান থেকে আপনি আপনার ফোল্ডার যুক্ত করতে পারেন।

অ্যাক্রোব্যাট এক্স-এ ফাংশনটি নিম্নরূপ পাওয়া যায়:

একাধিক ফাইলে সরঞ্জামগুলি> পাঠ্যটি স্বীকৃতি দিন

ধন্যবাদ "পেলস" ;) সময় অনুমতি হিসাবে এটি চেষ্টা করে দেখাব। আমার পূর্ববর্তী ফ্রিডারার.আবিবিআই ডট কমের পরীক্ষায় আমি যা পছন্দ করেছি তা হ'ল এটি বেশ কয়েকটি পৃথক ভাষা চিনতে পারে। ;)
এর্ব

1

আসলে, পিডিএফসানডউইচটি গত বছরের মধ্যে আপডেট করা হয়েছে এবং লিনাক্স মিন্টে ইনস্টল করা আমার পক্ষে মোটেই কঠিন ছিল না। এটি প্রদত্ত ফলাফলগুলি অ্যাডোব অ্যাক্রোব্যাট থেকে নিকৃষ্ট, তবে এটি এখন পর্যন্ত লিনাক্সে আমি একমাত্র কার্যকর সমাধান পেয়েছি।


1
খুব আকর্ষণীয়! আমি এটি সম্পর্কে জানতাম না। আমি en.wikisource.org/wiki/… থেকে একটি লিঙ্ক যুক্ত করছি এবং ভবিষ্যতে কোনও সময়ে এটি পরীক্ষা করব। (আসলে আরও অনেকগুলি সমাধান রয়েছে তবে আমি এখানে শুরু করব না!)
নিমো

0

ওয়াচওসিআর চেষ্টা করুন । এটি একটি ওপেন সোর্স সফ্টওয়্যার প্যাকেজ যা স্ক্যান হওয়া চিত্রগুলিকে পাঠ্য অনুসন্ধানযোগ্য পিডিএফসে রূপান্তর করে। এটি নিখরচায় এবং মুক্ত উত্স এবং দূরবর্তী প্রশাসনের জন্য একটি দুর্দান্ত ওয়েব ইন্টারফেস রয়েছে। সঠিক কনফিগারেশনের সাহায্যে এটি এসএমএস শেয়ারের মাধ্যমে একটি সম্পূর্ণ নেটওয়ার্কের জন্য একটি ব্যাচ পিডিএফ / ocr পরিষেবা তৈরি করতে ব্যবহৃত হবে। দুর্ভাগ্যক্রমে এটি কেবল লিনাক্স। তবে আপনি এটি কোনও পুরানো সার্ভারে ইনস্টল করতে পারেন এবং তারপরে আপনার পুরো সংস্থাটি এটি ব্যবহার করতে পারে।

আপনি যদি কিছু ইনস্টল না করে একই অনলাইনে করতে চান তবে পিডিএফকুবেড.কম চেষ্টা করুন


আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.