পাঠ্য রূপান্তরকারী পিডিএফটির চেয়ে আরও ভাল পিডিএফ আছে কি?


63

পিডিএফ ডকুমেন্টগুলিকে টেক্সটে রূপান্তর করতে আমি পিডিফোটটেক্সট (পপলার-ব্যবহারগুলির অংশ) ব্যবহার করছি। এটি বেশিরভাগ অংশের জন্য কাজ করে, তবে একটি জিনিস আমি ইচ্ছা করি তা হ'ল পৃথক অনুচ্ছেদের মধ্যে ফাঁকা রেখাগুলি একসাথে ম্যাশ করার পরিবর্তে সন্নিবেশ করানো।

এটি করার জন্য pdftotext পাওয়ার কোনও উপায় আছে কি? এবং যদি তা না হয় তবে পাঠ্য ইউটিলিটিতে আরও একটি পিডিএফ আছে যা এটি করতে পারে?


8
শিরোনামে আপনি "পিডিফোটোটেক্সট" বলছেন (যা পপলার-ব্যবহারগুলির অংশ) এবং শরীরে আপনি "পিডিটি টেক্সট" বলে থাকেন (যা আমি জানি না)। আপনি কোনটি উল্লেখ করছেন?
enzotib

উত্তর:


25

আপনি ক্যালিবারebook-convert থেকে চেষ্টা করতে পারেন

যদি কিছু থাকে তবে আমি এটি অন্য দিকে ভুল করে বলব: অনেকগুলি লাইন ব্রেক।

পিডিফ্রেফ্লু ব্যবহার করে এইচটিএমএল রূপান্তর করা , এবং তারপরে এইচটিএমএলকে টিএক্সটিতে রূপান্তর করাতে আমি অবশ্যই অন্য কোনও বিষয় বিবেচনা করব ।


দ্রষ্টব্য: ebook-convertবহু-কলাম লেআউট রূপান্তর করতে পারে না, এটি কলামগুলিকে এক কলামে একীভূত করে। মাল্টি-কলাম লেআউটের জন্য pdftotextআরও ভাল আউটপুট উত্পাদিত হয়। আরও সীমাবদ্ধতাগুলি ম্যানুয়াল.ক্যালিব্রে- বই / কনভার্সনHtml#convers-pdf-documents এ বর্ণিত হয়েছে ।
asmaier

117

আপনি যদি পিডিফোটটেক্সট ব্যবহার করছেন তবে আপনি -layoutনিজের ইনপুট পিডিএফ ফাইলের পৃষ্ঠাগুলিতে পাঠ্যের বিন্যাস সংরক্ষণ করতে পতাকা ব্যবহার করতে পারেন :

pdftotext -layout input.pdf output.txt

6
সারণী বিন্যাসের জন্য নির্দিষ্টভাবে টেবিল রয়েছে, দুর্দান্ত কাজ করে।
পি.বাইন্ড্রিজ

3
@ পি। উইন্ড্রিজ, এই টেবিল বিকল্পটি কোথায়? উবুন্টু ১.0.০৪-তে পপলার-ইউটিসগুলি থেকে 0.48.0 সংস্করণে এটি খুঁজে পাচ্ছি না
গজল্লি

2
@gozzilli এটা উপায় বয়সী। সর্বশেষ pdftotext v4.00, পাওয়া যায় Xpdf সরঞ্জাম tarball রূপে এখানে
অ্যাড্রিয়ান

2
@gozzilli সংস্করণগুলি 0 দিয়ে শুরু হয় এবং এটি Xpdf এর মূল কোডটির পপ্পলার্স শাখা নির্দেশ করে। কোডটি ব্রাঞ্চ করার পরে তারা তাদের সংস্করণ নম্বরগুলি শুরু করেছিল। উভয় গ্রুপই এখন এই পিডিএফ সরঞ্জামগুলির পৃথক সংস্করণ বজায় রেখেছে।
অ্যান্ড্রু

1
@ ভিভেকেবল সেগুলিকে নির্দিষ্ট -r(রেজোলিউশন, ডিফল্ট 72 ডিপিআই)
ভার্সেপানিউক

14

ওপেন সোর্স (এবং অটোমেশন) এর অনুরাগী হিসাবে আমি এটি বলতে ঘৃণা করি, তবে সবেমাত্র প্রাপ্ত সেরা ফলাফলগুলি (বেশ বড়, জটিল পিডিএফ এ) অ্যাডোব রিডারে খুলতে হবে, তারপরে ফাইলটি সংরক্ষণ করুন হিসাবে পাঠ্য হিসাবে নির্বাচন করুন।

(আমি পাঠ্য হিসাবে নয়, পাঠ্য বিশ্লেষণ পরীক্ষাগুলির প্রাক-প্রক্রিয়াজাত করছি, তবে আমার মনে হয় আমার প্রথম এবং দ্বিতীয় পছন্দটি একই রকম হবে))

আমি পাশাপাশি আউটপুট তুলনা করছি। আমার দ্বিতীয় পছন্দটি হ'ল ইবুক-রূপান্তর।

অ্যাডোব : পৃষ্ঠা বিরতির জন্য এফএফের বামে, পৃষ্ঠা নম্বরগুলিতে বামে, শিরোনাম / অনুচ্ছেদগুলিকে একক লাইনে রূপান্তরিত করেনি, তবে এতে স্থির হাইফেন রয়েছে। পিডিএফটিতে লুকানো জঞ্জাল আউটপুট পায়নি। বিভাগগুলির শুরুতে সঠিকভাবে বড় বড় রাজধানীগুলি পেয়েছে, যেমন "দ্য", "টি সে" বা "টি তিনি" নয়।

ইবুক-রূপান্তর : পৃষ্ঠা নম্বরে বাম এবং শিরোনাম / পাদচরণের কিছু লুকানো জাঙ্ক (তবে কোনও এফএফ নেই)। বেশিরভাগ অনুচ্ছেদগুলিকে একক রেখায় রূপান্তর করে। এগুলি এটি মিস করেছে যদিও তারা দ্বৈত ব্যবধানে! বুলেটগুলি সর্বদা পাঠ্যের সাথে একসাথে থাকে না। অধ্যায়ের শুরুতে সঠিকভাবে "দ্য" পেয়েছি।

pdftotext (--layout ব্যতীত) : খারাপ নয়, বুলেটগুলি লাইন আপ করে, তবে শিরোলেখ / পাদলেখের শব্দ। এফএফ সেখানে আছে। হাইফেন সরানো হয়েছে। অধ্যায় বড় অক্ষরের শুরুতে সবচেয়ে খারাপ: "T \ n he n"।

pdftotext (--layout সহ) : অনুরূপ, তবে আরও ইনডেন্ট। "টি তিনি" অধ্যায় শুরুর জন্য।

পিডিএফটোএইচটিএমএল >> পিডিফ্রেফ্লো >> এইচটিএমলেটোটেক্সট : এটি পৃষ্ঠা নম্বরগুলি সরিয়েছে, তবে এখনও শিরোলেখ / পাদলেখের মধ্যে আবদ্ধ । "টি তিনি" অধ্যায় শুরুর জন্য। হাইফেন সরানো হয়েছে। (এটি অনুচ্ছেদে প্রতি একাধিক লাইন ব্যবহার করে, তবুও তারা অন্যান্য সংস্করণগুলির মতো একই লাইন বিরতি নয়!)


লিনাক্সের অ্যাক্রোব্যাট রিডার 9 আমার ক্ষেত্রে স্কোয়াশ শব্দ তৈরি করেছে। ebook-convertভাল কাজ।
ov7a

আমাদের এটির জন্য সত্যই একটি এআই অ্যাপ্লিকেশন দরকার, এ জাতীয় কাজের জন্য এটি নিখুঁত বলে মনে হয়: কেউ কি জানে?
জিনস্নো

1
অ্যাডোব পাঠক বিনামূল্যে, কিন্তু ... কেবল পিডিএফ পড়ার জন্য। অন্যান্য জিনিসের জন্য আপনাকে অর্থ প্রদান করতে হবে (মাসিক সাবস্ক্রিপশন)। (পিডিএফ থেকে পাঠ্য কয়েকটি পৃষ্ঠায় সীমাবদ্ধ)। পিডিএফটো পাঠ্য (বা জিতে এক্সপিডিএফ) আমার প্রয়োজনের জন্য উপযুক্ত।
জিনস্নো

সারণী ডেটা জন্য, এখন -table স্যুইচ "পিডিফটটেক্সট-টেবিল ফাইল_নাম.পিডিএফ আউটপুট_নাম.টেক্সট"
থম আইভস

5

আপনার যদি একটি গুগল অ্যাকাউন্ট থাকে তবে আপনি পিডিএফ আপলোড করতে এবং সম্পাদনযোগ্য পাঠ্যে রূপান্তর করতে গুগল ডক্স ব্যবহার করতে পারেন।


1

আমি পিআইপিডিএফ চেষ্টা করেও এটি দুটি নথিতে পিডিডিএফটেক্সটের সাথে তুলনা করেছি এটির আরও লাইন ব্রেক রয়েছে এবং কিছু বিভাগের নামগুলি বিভক্ত করা হয়েছে (রেফারেন্সগুলি রেফারেন্স ছিল)।

pdf2txt আউটপুট সম্পূর্ণ আবর্জনা করে।

আমি প্রায়শই পিডিএফবক্স (জাভা) ব্যবহার করি যদি পিডিফোটটেক্সট আউটপুট স্ক্রু করে। আপনি এটি ব্যবহার করে দেখতে পারেন।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.