ওপেন সোর্স (এবং অটোমেশন) এর অনুরাগী হিসাবে আমি এটি বলতে ঘৃণা করি, তবে সবেমাত্র প্রাপ্ত সেরা ফলাফলগুলি (বেশ বড়, জটিল পিডিএফ এ) অ্যাডোব রিডারে খুলতে হবে, তারপরে ফাইলটি সংরক্ষণ করুন হিসাবে পাঠ্য হিসাবে নির্বাচন করুন।
(আমি পাঠ্য হিসাবে নয়, পাঠ্য বিশ্লেষণ পরীক্ষাগুলির প্রাক-প্রক্রিয়াজাত করছি, তবে আমার মনে হয় আমার প্রথম এবং দ্বিতীয় পছন্দটি একই রকম হবে))
আমি পাশাপাশি আউটপুট তুলনা করছি। আমার দ্বিতীয় পছন্দটি হ'ল ইবুক-রূপান্তর।
অ্যাডোব : পৃষ্ঠা বিরতির জন্য এফএফের বামে, পৃষ্ঠা নম্বরগুলিতে বামে, শিরোনাম / অনুচ্ছেদগুলিকে একক লাইনে রূপান্তরিত করেনি, তবে এতে স্থির হাইফেন রয়েছে। পিডিএফটিতে লুকানো জঞ্জাল আউটপুট পায়নি। বিভাগগুলির শুরুতে সঠিকভাবে বড় বড় রাজধানীগুলি পেয়েছে, যেমন "দ্য", "টি সে" বা "টি তিনি" নয়।
ইবুক-রূপান্তর : পৃষ্ঠা নম্বরে বাম এবং শিরোনাম / পাদচরণের কিছু লুকানো জাঙ্ক (তবে কোনও এফএফ নেই)। বেশিরভাগ অনুচ্ছেদগুলিকে একক রেখায় রূপান্তর করে। এগুলি এটি মিস করেছে যদিও তারা দ্বৈত ব্যবধানে! বুলেটগুলি সর্বদা পাঠ্যের সাথে একসাথে থাকে না। অধ্যায়ের শুরুতে সঠিকভাবে "দ্য" পেয়েছি।
pdftotext (--layout ব্যতীত) : খারাপ নয়, বুলেটগুলি লাইন আপ করে, তবে শিরোলেখ / পাদলেখের শব্দ। এফএফ সেখানে আছে। হাইফেন সরানো হয়েছে। অধ্যায় বড় অক্ষরের শুরুতে সবচেয়ে খারাপ: "T \ n he n"।
pdftotext (--layout সহ) : অনুরূপ, তবে আরও ইনডেন্ট। "টি তিনি" অধ্যায় শুরুর জন্য।
পিডিএফটোএইচটিএমএল >> পিডিফ্রেফ্লো >> এইচটিএমলেটোটেক্সট : এটি পৃষ্ঠা নম্বরগুলি সরিয়েছে, তবে এখনও শিরোলেখ / পাদলেখের মধ্যে আবদ্ধ । "টি তিনি" অধ্যায় শুরুর জন্য। হাইফেন সরানো হয়েছে। (এটি অনুচ্ছেদে প্রতি একাধিক লাইন ব্যবহার করে, তবুও তারা অন্যান্য সংস্করণগুলির মতো একই লাইন বিরতি নয়!)