কীভাবে পিডিএফ কম দেখায়?


52

আমি বেশ কয়েকটি প্রোগ্রাম চেষ্টা করেছি: পিডিফোটটেক্সট, পিডিএফ 2 টেক্সট.পি, ... ... তারা সকলেই পিডিএফ থেকে পাঠ্য আহরণ করতে পারে, তবে যেটি আরও ভাল কাজ করছে তা ভাল '' less: পিডিএফ থেকে পাঠ্যের একটি সঠিক বিন্যাস রয়েছে। কীভাবে কম করছেন? এটি কোনও লাইব্রেরি ব্যবহার করছে, বা পিডিএফ প্রসেসিং অন্তর্নির্মিত?

আমি জিজ্ঞাসা করছি কারণ আমি এই ফানকুনিয়ালিটি প্রোগ্রামটিমে ব্যবহার করতে চাই, বাহ্যিক প্রোগ্রাম হিসাবে অগত্যা কম চালাতে হবে (আমি পাইথন করছি)।

আমার সিস্টেমটি হ'ল:

» less --version
less 458 (GNU regular expressions)
Copyright (C) 1984-2012 Mark Nudelman

less comes with NO WARRANTY, to the extent permitted by law.
For information about the terms of redistribution,
see the file named README in the less distribution.
Homepage: http://www.greenwoodsoftware.com/less

» uname -a
Linux polyphemus 3.13.0-53-generic #89-Ubuntu SMP Wed May 20 10:34:39 UTC 2015 x86_64 x86_64 x86_64 GNU/Linux

উত্তর:


63

আপনার বিতরণ সম্ভবত জনপ্রিয় lesspipe.shস্ক্রিপ্ট ব্যবহার করছে । LESSOPENপরিবেশের পরিবর্তনশীল পরীক্ষা করুন ।

এই স্ক্রিপ্টটি বিভিন্ন প্রকারে বিদ্যমান। আমি জেন্টু সংস্করণটি দেখছি। এটিতে, আপনি নিম্নলিখিত লাইনটি পাবেন:

*.ps|*.pdf) ps2ascii "$1" || pstotext "$1" || pdftotext "$1" ;;

এর অর্থ এটি প্রদর্শিত আদেশ অনুসারে সেই আদেশগুলি চেষ্টা করবে। $1ফাইলের নাম।

অন্য সংস্করণে নিম্নলিখিত কমান্ডটি ব্যবহার করা হয়েছে:

pdftohtml -stdout "$t" | parsehtml -

15
ধন্যবাদ, এটি প্রমাণিত হয়েছে যে এটি ব্যবহার করছেpdftotext -layout $1 -
ডাঙ্গনফাস্ট

@ jeckyll2hide আপনি কম ফলাফলের সাথে আরও ভাল ফলাফলের ব্যাখ্যা খুঁজে পেয়েছেন ?
vvy

@vvy সম্ভবত -layoutস্যুইচ করুন। ;)
ড্যানিয়েল বি
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.