লিনাক্সে স্ক্রিপ্টে পিডিএফ থেকে পাঠ্য কীভাবে আহরণ করবেন?


23

লিনাক্সে - কোনও পাঠ্যটি কীভাবে পাঠানো .pdfযায় যেখানে পাঠ্যটি সত্যই পাঠ্য হয়, স্ক্যান করা চিত্র নয়? আমি কমান্ড লাইনে / স্ক্রিপ্টে ইন্টারেক্টিভভাবে নয়, এমন কিছু চাই। (আমি রূপান্তর করতে .tifএবং ওসিআর ব্যবহার করতে চাই না - পাঠ্যটি .pdfফাইলে ইতিমধ্যে পাওয়া যায় , তবে কেন অপূর্ণ ওসিআর থেকে ভুলের পরিচয় দেওয়া হয়?)


উত্তর:


25

pdftotext যে পপলার সাথে আসে পিডিএফ পাওয়া কোনও পাঠ্য নিষ্কাশন করার চেষ্টা করবে।


1
আপনার দ্রুত প্রতিক্রিয়া জন্য ধন্যবাদ, Ignacio! আমি ইতিমধ্যে পিডিফোটেক্সটেক্সটি যাচাই করছিলাম যা ডাব্লু এক্সপিডিএফ (foolabs.com থেকে) আসে - আপনার উত্তর আমাকে অন্য চেহারা দেখার অনুরোধ জানায় এবং আমি এটি কাজ করে চলেছি। পপলার এক্সপিডিএফ থেকে বিকশিত হয়েছে বলে মনে হয়, তাই আমি এটিও একবার দেখব। আবার ধন্যবাদ!
রবএম

9

Ignacio এর উত্তর ঠিক আছে। আসলে, এটি আমার তালিকার প্রথম জিনিস হবে। ওয়েল, এটি এবং সম্ভবত pdftohtmlযে সরঞ্জামটি পপ্পলারের সাথেও আসে, পিডিফ্রেফ্লো দিয়ে মিলিয়ে আপনি যদি পাঠ্যকে অনুচ্ছেদে ইত্যাদিতে পুনরায় সাজানোর চেষ্টা করতে চান ইত্যাদি (অবশ্যই, এটি আপনাকে HTML আউটপুট দেবে, তবে এইচটিএমএলকে সরল পাঠ্যে রূপান্তর করতে পারে বিভিন্ন উপায়ে করা হবে।)

এখানে আরও কিছু বিকল্প রয়েছে।

ebook-convertথেকে কমান্ড লাইন টুল ধীশক্তি , যা সরল পাঠ্যে .PDFs রূপান্তর করতে পারেন (অথবা RTF পরস্পরের বা ইসলাম বিন্যাসের একটি নম্বর, ePub, ইত্যাদি)

pdftxtextractপোডোফো থেকে

কমান্ডলাইন থেকে আবাইওয়ার্ডকে যে কোনও ফর্ম্যাট থেকে রফতানি / রফতানি করতে পারে এবং উপযুক্ত আমদানি প্লাগইন সহ এটি পিডিএফ অন্তর্ভুক্ত করতে পারে:

abiword --to=txt file.pdf

(নিখরচায় আমি মনে করি অ্যাবিওয়ার্ড এবং ক্যালিবার উভয়ই পপলারের লাইব্রেরি ব্যবহার করে তবে আমি ইতিবাচক নই।)


ধন্যবাদ উদ্ভট! এই ক্ষেত্রে, আমি কেবল পাঠ্যটি বের করছি যাতে আমি নির্দিষ্ট স্ট্রিংগুলি (বিক্রেতার নাম, অ্যাকাউন্ট নম্বর) এবং নিদর্শনগুলির জন্য (চালানের নম্বর এবং তারিখ) স্ক্যান করতে পারি - সুতরাং এটি পুনরায় ফর্ম্যাট করার বা পুনরায় প্রদর্শন করার দরকার নেই। আমি সহযোগিতা এবং বিকল্পগুলির প্রশংসা করি - এবং আমি নিশ্চিত যে অন্যরাও তা করবে! - রব
রবএম
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.