用python从pdf中提取信息,转为txt或者html

来源:互联网 发布:纸黄金 近两年数据 编辑:程序博客网 时间:2024/05/13 15:25

主要用到了pdfminer这个库

原文地址:

http://www.bkjia.com/Pythonjc/1073800.html



示例代码

# -*- coding: utf-8 -*-   from pdfminer.pdfparser import PDFParserfrom pdfminer.pdfdocument import PDFDocumentfrom pdfminer.pdfpage import PDFPagefrom pdfminer.pdfpage import PDFTextExtractionNotAllowedfrom pdfminer.pdfinterp import PDFResourceManagerfrom pdfminer.pdfinterp import PDFPageInterpreterfrom pdfminer.pdfdevice import PDFDevicefrom pdfminer.layout import *from pdfminer.converter import PDFPageAggregatorimport osfp = open('test.pdf', 'rb')#来创建一个pdf文档分析器parser = PDFParser(fp)  #创建一个PDF文档对象存储文档结构document = PDFDocument(parser)# 检查文件是否允许文本提取if not document.is_extractable:    raise PDFTextExtractionNotAllowedelse:    # 创建一个PDF资源管理器对象来存储共赏资源    rsrcmgr=PDFResourceManager()    # 设定参数进行分析    laparams=LAParams()    # 创建一个PDF设备对象    # device=PDFDevice(rsrcmgr)    device=PDFPageAggregator(rsrcmgr,laparams=laparams)    # 创建一个PDF解释器对象    interpreter=PDFPageInterpreter(rsrcmgr,device)    # 处理每一页    for page in PDFPage.create_pages(document):        interpreter.process_page(page)        # 接受该页面的LTPage对象        layout=device.get_result()        for x in layout:            if(isinstance(x,LTTextBoxHorizontal)):                with open('a.txt','a') as f:                    f.write(x.get_text().encode('utf-8')+'\n')


0 0
原创粉丝点击