পাঠ্য-কনভার্টারে পিডিএফ কিছু ধরণের আছে?


21

পাঠ্য করার জন্য আমার পিডিএফ ফাইলগুলি দরকার যাতে আমি কমান্ডলাইন থেকে এগুলি সন্ধান করতে পারি। উবুন্টু, ওবিএসডি বা অনুরূপ ডিস্ট্রোর জন্য কি কিছু কনভার্টার রয়েছে?

সম্ভবত সম্পর্কিত পোস্ট, উবুন্টু সহ ওসিআর এখানে



যদি এটি একটি "আসল" পিডিএফ হয় (পাঠ্য ইত্যাদি থেকে তৈরি) পিডিফোটটেক্সট আপনার সেরা বাজি। যদি এটি কোনও চিত্র হয় তবে আপনার সেরা বাজি হ'ল কিছু ওসিআর স্টাফ।
ভনব্র্যান্ড

1
আমি সর্বদা ব্যবহার করি pdftotext= pdfcat
isomorphismes

উত্তর:


22

আপনার কাছে প্রচুর বিকল্প রয়েছে!

pdftotextপপ্পলার থেকে ইতিমধ্যে উল্লেখ করা হয়েছে।

এখানে একটি হাস্কেল প্রোগ্রাম রয়েছেpdf2line যা ভালভাবে কাজ করে।

ধীশক্তি এর ebook-convertকমান্ড প্রোগ্রাম (বা নিজেই ধীশক্তি) অন্য কোনো বিকল্প নেই; এটি পিডিএফটিকে প্লেইন পাঠ্যে বা অন্য ই-বুক-ফরম্যাটে (আরটিএফ, ইপাব) রূপান্তর করতে পারে, আমার মতে এটি পিডিফুটটেক্সট এর চেয়ে ভাল ফলাফল উত্পন্ন করে, যদিও এটি যথেষ্ট ধীর।

ebook-convert file.pdf file.txt

অ্যাবিওয়ার্ড কমান্ড-লাইন থেকে জানা কোনও ফর্ম্যাটগুলির মধ্যে রূপান্তর করতে পারে এবং কমপক্ষে optionচ্ছিকভাবে একটি পিডিএফ আমদানি প্লাগইন রয়েছে:

abiword --to=txt file.pdf

তবুও অন্য বিকল্প podofotextextractথেকে podofo পিডিএফ টুলস গ্রন্থাগার। আমি আসলে চেষ্টা করে দেখিনি।

যদি আপনি দুটি ঘোস্ট স্ক্রিপ্ট সরঞ্জামগুলি একত্রিত করেন pdf2psএবং ps2ascii, আপনার কাছে অন্য একটি বিকল্প রয়েছে।

আমি আসলে আরও কয়েকটি পদ্ধতি সম্পর্কে ভাবতে পারি, তবে আমি আপাতত এটিকে রেখে দেব। ;)


ক্যালিব্রে এর ইবুক-রূপান্তর ... আপনি কি দেখেছেন এটি লিগচারগুলিতে কী করে? bleargh। আসুন এটি এইভাবে রাখুন: এটি খুব ই-ইকুয়েটিভ প্রোগ্রাম নয়। pdftotext অনেক বেশি বিশ্বস্ত। আমি এর আউটপুটে কোনও ত্রুটি আবিষ্কার করি নি।
ixtmixilix

1
আপনি পিডিএফ-ফাইলগুলি পাঠ্য হিসাবে দেখার জন্য কম ব্যবহার করতে পারেন । এটি পিডিফুটটেক্সট বা অনুরূপ সরঞ্জামের জন্য প্রিপ্রোসেসর, অর্থাত্ কমপাইপকে ডাকে।
ড্যানিয়েল নসল্ড

pdftotextএর চেয়ে আরও সঠিক ফলাফল দেয় ebook-convertএবং এটি খুব দ্রুত। ebook-convertআলস্য।
অমিত প্যাটেল

pdftotext-layoutবিকল্প শিলা সঙ্গে ! calibreইনস্টল করতে 600mb এরও বেশি প্রয়োজন! এটি পাগল)
স্টালিনকো

9

আপনি পিডিএফটি টেক্সট পিডিএফটোটেক্সট ( উলবুন্টু : পপলার-ইউটিস ; ওপেনবিএসডি: xpdf-utilsপ্যাকেজ) দিয়ে পাঠ্যে পিডিএফগুলি রূপান্তর করতে পারেন ।

আপনি পিডিএফ সহ বিভিন্ন ফর্ম্যাটযুক্ত পাঠ্য নথির ধরণের সন্ধানের জন্য রিকোল (উবুন্টু: রিকোল ; ওপেনবিএসডি: কোনও বন্দর নেই, তবে ফ্রিবিএসডি এর জন্য একটি আছে ) ব্যবহার করতে পারেন। একটি জিইউআই রয়েছে এবং এটি হুডের নীচে স্বয়ংক্রিয়ভাবে একটি সূচক তৈরি করে। এটি pdftotextপিডিএফটিকে পাঠ্যে রূপান্তর করতে ব্যবহার করে।

অ্যাক্রোব্যাট রিডার (লিনাক্সের অন্তত 9 সংস্করণ) এর সীমিত একাধিক-ফাইল অনুসন্ধানের ক্ষমতা রয়েছে (আপনি একটি ডিরেক্টরিতে সমস্ত ফাইল সন্ধান করতে পারেন)।


4

পিডিফোটটেক্সট সম্ভবত আপনি যা খুঁজছেন তা হ'ল: http://en.wikedia.org/wiki/Pdftotext যদি না আপনি পাঠ্যটি উত্তোলন করতে চান তবে সত্যই এটি গ্রাফিকাল ফর্মের অধীনে নেই, যা পিডিএফ নথিগুলির সাথে সাধারণ নয়।



-1

জিপিডিএফটেক্সট লম্বা লাইনের অনুচ্ছেদের জন্য পুনরায় ফর্ম্যাট করা ইবুক পিডিএফ বিষয়বস্তুকে ASCII পাঠ্যে রূপান্তরিত করে, এটি আমার পক্ষে কাজ করে এবং এর একটি গ্রাফিকাল ইন্টারফেস রয়েছে।


3
হাই এবং সাইটে আপনাকে স্বাগতম। আমরা উত্তরগুলি এখানে আরও বিস্তৃত হতে চাই। উদাহরণস্বরূপ, আপনি কোথায় যোগ gPDFTextকরা যায় তা যুক্ত করতে পারেন, এটি কীভাবে ইনস্টল করা যায় এবং ওপির প্রশ্নের উত্তর দেওয়ার জন্য এটি কীভাবে ব্যবহৃত হবে।
টেরডন
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.