亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

我如何將pdfminer用作庫

我如何將pdfminer用作庫

翻閱古今 2019-11-23 11:02:58
我正在嘗試使用pdfminer從pdf獲取文本數據。我可以使用pdfminer命令行工具pdf2txt.py將數據成功提取到.txt文件中。我目前正在執行此操作,然后使用python腳本清理.txt文件。我想將pdf提取過程合并到腳本中,從而節省了一步。當我找到此鏈接時,我以為自己正在研究某些東西,但是任何解決方案都沒有成功。也許那里列出的功能需要再次更新,因為我使用的是pdfminer的較新版本。我也嘗試了此處顯示的功能,但是也沒有用。我嘗試的另一種方法是使用調用腳本內的腳本os.system。這也不成功。我正在使用Python版本2.7.1和pdfminer版本20110227。
查看完整描述

3 回答

?
MMMHUHU

TA貢獻1834條經驗 獲得超8個贊

這是我最終制作的對我有用的清理版本。給定其文件名,以下代碼僅以PDF形式返回該字符串。我希望這可以節省一些時間。


from pdfminer.pdfinterp import PDFResourceManager, process_pdf

from pdfminer.converter import TextConverter

from pdfminer.layout import LAParams

from cStringIO import StringIO


def convert_pdf(path):


    rsrcmgr = PDFResourceManager()

    retstr = StringIO()

    codec = 'utf-8'

    laparams = LAParams()

    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)


    fp = file(path, 'rb')

    process_pdf(rsrcmgr, device, fp)

    fp.close()

    device.close()


    str = retstr.getvalue()

    retstr.close()

    return str


查看完整回答
反對 回復 2019-11-23
?
侃侃無極

TA貢獻2051條經驗 獲得超10個贊

這是與最新版本一起使用的新解決方案:


from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter

from pdfminer.converter import TextConverter

from pdfminer.layout import LAParams

from pdfminer.pdfpage import PDFPage

from cStringIO import StringIO


def convert_pdf_to_txt(path):

    rsrcmgr = PDFResourceManager()

    retstr = StringIO()

    codec = 'utf-8'

    laparams = LAParams()

    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)

    fp = file(path, 'rb')

    interpreter = PDFPageInterpreter(rsrcmgr, device)

    password = ""

    maxpages = 0

    caching = True

    pagenos=set()

    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):

        interpreter.process_page(page)

    fp.close()

    device.close()

    str = retstr.getvalue()

    retstr.close()

    return str


查看完整回答
反對 回復 2019-11-23
  • 3 回答
  • 0 關注
  • 493 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號