প্রথমত, আপনাকে পিডিএফ কী তা বুঝতে হবে। পিডিএফগুলি একটি মুদ্রিত পৃষ্ঠার নকল করার জন্য ডিজাইন করা হয়েছে এবং সেগুলি কেবল একটি আউটপুট ফর্ম্যাট হিসাবে ডিজাইন করা হয়েছে , কোনও ইনপুট বিন্যাস নয়। একটি পিডিএফ মূলত একটি মানচিত্র যা অক্ষরের সঠিক অবস্থান (স্বতন্ত্র অক্ষর বা বিরামচিহ্ন ইত্যাদি) বা চিত্রগুলি ধারণ করে। বেশিরভাগ ক্ষেত্রে , একটি পিডিএফ এমনকি একটি শব্দ কোথায় শেষ হয় এবং অন্যটি শুরু হয় সে সম্পর্কেও তথ্য সংরক্ষণ করে না , নরম বিরতি বনাম হার্ড অনুচ্ছেদের মতো অনুচ্ছেদের সমাপ্তির জন্য খুব কম জিনিস।
(সাম্প্রতিক কয়েকটি পিডিএফ এই স্টাফগুলি সম্পর্কে কিছু তথ্য সঞ্চয় করে তবে এটি একটি নতুন প্রযুক্তি এবং আপনি পিডিএফগুলি সন্ধান করার জন্য ভাগ্যবান হবেন did এমনকি যদি আপনি এটি করেন তবে আপনার পিডিএফ ভিউয়ারটি এটি সম্পর্কে জানেন না))
যাইহোক, কোনও শব্দ কী, অনুচ্ছেদ কী এবং কী কী তা পৃথক চরিত্রের অবস্থানগুলি থেকে কেবল আহরণের জন্য এক ধরণের "কৃত্রিম বুদ্ধিমত্তা" প্রয়োগ করা আপনার সফ্টওয়্যারটির উপর নির্ভর করে। বিভিন্ন সফ্টওয়্যার অন্যদের থেকে এটি আরও ভাল করে চলেছে, এবং এটি পিডিএফ কীভাবে তৈরি হয়েছিল তার উপরও নির্ভর করে। যাই হোক না কেন , আপনার কখনই নিখুঁত ফলাফল আশা করা উচিত নয় । আউটপুট পিডিএফ থাকা সোর্স ডকুমেন্ট থাকার মতো নয়। আপনি যদি পারেন তা অর্জন করার চেষ্টা করা আরও ভাল।
আপনার ধরণের সমস্যার স্ট্যান্ডার্ড সমাধান হ'ল পিডিএফটিকে এইচটিএমএলে রূপান্তর করতে অ্যাডোব অ্যাক্রোব্যাট প্রফেশনাল (ব্যয়বহুল এক, বিনামূল্যে পাঠক নয়) ব্যবহার করা। এমনকি এটি নিখুঁত ফলাফল পেতে যাচ্ছে না।
এমন ফ্রি সফ্টওয়্যার রয়েছে যা কিছু ফর্ম্যাটিং অক্ষত রেখে পিডিএফ থেকে পাঠ্য আহরণ করতে ব্যবহার করা যেতে পারে, তবে আবার, নিখুঁত ফলাফলের আশা করবেন না। দেখুন, উদাহরণস্বরূপ, ক্যালিবার (যা আরটিএফ ফর্ম্যাটে রূপান্তর করতে পারে), পিডিএফটোএইচটিএমএল / পিডিফ্রেফ্লো বা অ্যাবিওয়ার্ড ওয়ার্ড প্রসেসর (সমস্ত ইম্পোর্ট / এক্সপোর্ট প্লাগইন সক্ষম করে) ওপেন অফিসের জন্য একটি পিডিএফ আমদানি প্লাগইন রয়েছে।
তবে দয়া করে এই ফলাফলগুলির সাথে কোনওটির সাথে নিখুঁততা আশা করবেন না। আপনি এখানে শস্য বিরুদ্ধে যাচ্ছেন। পিডিএফ কেবল একটি সম্পাদনাযোগ্য ইনপুট ফর্ম্যাট হিসাবে বোঝানো হয় না।