用python从pdf中提取信息，转为txt或者html

来源：互联网发布：纸黄金近两年数据编辑：程序博客网时间：2024/05/13 15:25

主要用到了pdfminer这个库

原文地址：

http://www.bkjia.com/Pythonjc/1073800.html

示例代码

# -*- coding: utf-8 -*-   from pdfminer.pdfparser import PDFParserfrom pdfminer.pdfdocument import PDFDocumentfrom pdfminer.pdfpage import PDFPagefrom pdfminer.pdfpage import PDFTextExtractionNotAllowedfrom pdfminer.pdfinterp import PDFResourceManagerfrom pdfminer.pdfinterp import PDFPageInterpreterfrom pdfminer.pdfdevice import PDFDevicefrom pdfminer.layout import *from pdfminer.converter import PDFPageAggregatorimport osfp = open('test.pdf', 'rb')#来创建一个pdf文档分析器parser = PDFParser(fp)  #创建一个PDF文档对象存储文档结构document = PDFDocument(parser)# 检查文件是否允许文本提取if not document.is_extractable:    raise PDFTextExtractionNotAllowedelse:    # 创建一个PDF资源管理器对象来存储共赏资源    rsrcmgr=PDFResourceManager()    # 设定参数进行分析    laparams=LAParams()    # 创建一个PDF设备对象    # device=PDFDevice(rsrcmgr)    device=PDFPageAggregator(rsrcmgr,laparams=laparams)    # 创建一个PDF解释器对象    interpreter=PDFPageInterpreter(rsrcmgr,device)    # 处理每一页    for page in PDFPage.create_pages(document):        interpreter.process_page(page)        # 接受该页面的LTPage对象        layout=device.get_result()        for x in layout:            if(isinstance(x,LTTextBoxHorizontal)):                with open('a.txt','a') as f:                    f.write(x.get_text().encode('utf-8')+'\n')

0 0