পাইথনে পিডিএফমাইনার ব্যবহার করে একটি পিডিএফ ফাইল থেকে পাঠ্য আহরণ করা হচ্ছে?

Question 1

পাইথনের সাথে পিডিএফ মাইনার ব্যবহার করে কীভাবে পিডিএফ ফাইল থেকে পাঠ্য আহরণ করতে হয় তার নথিপত্র বা উদাহরণগুলির সন্ধান করছি ।

দেখে মনে হচ্ছে পিডিএফমিনার তাদের এপিআই আপডেট করেছে এবং আমি যে প্রাসঙ্গিক উদাহরণ পেয়েছি তাতে পুরানো কোড রয়েছে (ক্লাস এবং পদ্ধতিগুলি পরিবর্তিত হয়েছে)। আমি যে লাইব্রেরিগুলিতে খুঁজে পেয়েছি যে পিডিএফ ফাইল থেকে পাঠ্য উত্তোলনের কাজটিকে সহজ করে তোলে তা পুরানো পিডিএফ মাইনার সিনট্যাক্স ব্যবহার করছে সুতরাং এটি কীভাবে করবেন তা আমি নিশ্চিত নই।

যেমনটি হ'ল, আমি কেবল উত্স-কোডের দিকে তাকিয়ে দেখছি যে আমি এটি বের করতে পারি কিনা।

Question 2

পিডিএফ ফাইল থেকে পাঠ্য উত্তোলনের একটি কার্যকারী উদাহরণ এখানে রয়েছে পিডিএফ মাইনারের বর্তমান সংস্করণ (সেপ্টেম্বর 2016)

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO

def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()

    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
        interpreter.process_page(page)

    text = retstr.getvalue()

    fp.close()
    device.close()
    retstr.close()
    return text

পিডিএফ মাইনারের কাঠামোটি সম্প্রতি পরিবর্তিত হয়েছে, সুতরাং এটি পিডিএফ ফাইলগুলি থেকে পাঠ্য আহরণের জন্য কাজ করা উচিত।

সম্পাদনা করুন : 2018 সালের 7 ই জুনের মতো এখনও কাজ করছে Py পাইথন সংস্করণ 3.x এ যাচাই করা হয়েছে

সম্পাদনা করুন: সমাধানটি পাইথন 3.7 এর সাথে 3 অক্টোবর, 2019 এ কাজ করে I আমি পাইথন লাইব্রেরিটি pdfminer.sixনভেম্বর 2018 এ প্রকাশ করেছি।

Question 3

পাইথন 3 এর জন্য ডাকপঞ্চের কাছ থেকে ভয়ঙ্কর উত্তরটি নিশ্চিত করুন যে আপনি পিডিএফমিনার 2 ইনস্টল করেছেন এবং করছেন:

import io

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage


def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = io.StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos = set()

    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages,
                                  password=password,
                                  caching=caching,
                                  check_extractable=True):
        interpreter.process_page(page)



    fp.close()
    device.close()
    text = retstr.getvalue()
    retstr.close()
    return text

Question 4

এটি 2020 সালের মে মাসে পাইথন 3-তে পিডিএফএমাইনার ব্যবহার করে কাজ করে।

প্যাকেজ ইনস্টল করা হচ্ছে

$ pip install pdfminer.six

প্যাকেজ আমদানি করা হচ্ছে

from pdfminer.high_level import extract_text

ডিস্কে সংরক্ষিত পিডিএফ ব্যবহার করা

text = extract_text('report.pdf')

বা বিকল্পভাবে:

with open('report.pdf','rb') as f:
    text = extract_text(f)

ইতিমধ্যে মেমরিতে পিডিএফ ব্যবহার করা

যদি পিডিএফটি ইতিমধ্যে মেমরিতে থাকে, উদাহরণস্বরূপ যদি অনুরোধের লাইব্রেরি দিয়ে ওয়েব থেকে পুনরুদ্ধার করা হয় তবে এটি ioলাইব্রেরি ব্যবহার করে একটি স্ট্রিমে রূপান্তর করা যেতে পারে :

import io

response = requests.get(url)
text = extract_text(io.BytesIO(response.content))

পিপিডিএফ 2 এর সাথে তুলনা করে পারফরম্যান্স এবং নির্ভরযোগ্যতা

পিডিএফএমএন.সিক্স পিডিপিডিএফ 2 (যা নির্দিষ্ট ধরণের পিডিএফগুলির সাথে ব্যর্থ হয়) এর চেয়ে বেশি নির্ভরযোগ্যতার সাথে কাজ করে, বিশেষত পিডিএফ সংস্করণ 1.7 এ

যাইহোক, পিডিএফএমনার.সিক্স সহ পাঠ্য নিষ্কাশন 6 টির একটি ফ্যাক্টর দ্বারা পিপিডিএফ 2 এর তুলনায় উল্লেখযোগ্যভাবে ধীর।

আমি timeitএকটি 15 "এমবিপি (2018) তে পাঠ্য নিষ্কাশন সময়সই করেছি, কেবলমাত্র নিষ্কাশন ফাংশনের সময় নির্ধারণ করেছি (কোনও ফাইল খোলার ইত্যাদি নয়) 10 পৃষ্ঠার পিডিএফ সহ এবং নিম্নলিখিত ফলাফলগুলি পেয়েছি:

PDFminer.six: 2.88 sec
PyPDF2:       0.45 sec

পিডিএফমিনার.সিক্সে একটি বিশাল পায়ের ছাপ রয়েছে, যার জন্য পাইক্রিপ্টোডোম প্রয়োজন হয় যার জন্য জিসিসি এবং অন্যান্য জিনিসগুলি ইনস্টল করা দরকার যা অ্যালপাইন লিনাক্সে ৮০ এমবি থেকে ৩ 350০ এমবি অবধি ন্যূনতম ইনস্টল ডকার ইমেজটি পুশ করে। পাইপডিএফ 2 এর কোনও স্টোরেজ প্রভাব লক্ষ্য করা যায় না।

Question 5

সম্পূর্ণ প্রকাশ, আমি পিডিএফমিনার.সিক্স এর রক্ষণাবেক্ষণকারীদের একজন।

আজকাল, আপনার প্রয়োজনের উপর নির্ভর করে পিডিএফ থেকে পাঠ্য উত্তোলনের জন্য একাধিক এপি রয়েছে। পর্দার আড়ালে, এই সমস্ত এপিআই লেআউটটিকে বিশ্লেষণ এবং বিশ্লেষণের জন্য একই যুক্তি ব্যবহার করে।

(সমস্ত উদাহরণ ধরে নেওয়া আপনার পিডিএফ ফাইলকে উদাহরণ.পিডিএফ বলা হয় )

কমান্ডলাইন

আপনি একবারে পাঠ্য নিষ্কাশন করতে চাইলে আপনি কমান্ডলাইন সরঞ্জামটি ব্যবহার করতে পারেন pdf2txt.py:

$ pdf2txt.py example.pdf

উচ্চ স্তরের এপিআই

আপনি যদি পাইথনের সাহায্যে পাঠ্য উত্তোলন করতে চান তবে আপনি উচ্চ-স্তরের এপিআই ব্যবহার করতে পারেন। আপনি যদি অনেকগুলি পিডিএফ থেকে প্রোগ্রামগতভাবে পাঠ্য নিষ্কাশন করতে চান তবে এই পদ্ধতির কাছে যাওয়া সমাধান।

from pdfminer.high_level import extract_text

text = extract_text('example.pdf')

কম্পোজেবল এপিআই

এছাড়াও একটি কম্পোজেবল এপিআই রয়েছে যা ফলাফল প্রাপ্ত বস্তুগুলি পরিচালনা করতে প্রচুর নমনীয়তা দেয়। উদাহরণস্বরূপ, আপনি এটি ব্যবহার করে আপনার নিজস্ব লেআউট অ্যালগরিদম প্রয়োগ করতে পারেন। এই পদ্ধতিটি অন্য উত্তরে প্রস্তাবিত, তবে আমি কেবল তখনই সুপারিশ করব যখন আপনার পিডিএফমিনার.সিক্স আচরণ করে custom

from io import StringIO

from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfparser import PDFParser

output_string = StringIO()
with open('example.pdf', 'rb') as in_file:
    parser = PDFParser(in_file)
    doc = PDFDocument(parser)
    rsrcmgr = PDFResourceManager()
    device = TextConverter(rsrcmgr, output_string, laparams=LAParams())
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    for page in PDFPage.create_pages(doc):
        interpreter.process_page(page)

print(output_string.getvalue())

Question 6

অজগর 3 (pdfminer-20191125) এর জন্য পিডিএফমিনার দিয়ে এই কোডটি পরীক্ষা করা হয়

from pdfminer.layout import LAParams
from pdfminer.converter import PDFPageAggregator
from pdfminer.pdfinterp import PDFResourceManager
from pdfminer.pdfinterp import PDFPageInterpreter
from pdfminer.pdfpage import PDFPage
from pdfminer.layout import LTTextBoxHorizontal

def parsedocument(document):
    # convert all horizontal text into a lines list (one entry per line)
    # document is a file stream
    lines = []
    rsrcmgr = PDFResourceManager()
    laparams = LAParams()
    device = PDFPageAggregator(rsrcmgr, laparams=laparams)
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    for page in PDFPage.get_pages(document):
            interpreter.process_page(page)
            layout = device.get_result()
            for element in layout:
                if isinstance(element, LTTextBoxHorizontal):
                    lines.extend(element.get_text().splitlines())
    return lines