用python读取pdf文档

来源:互联网 发布:兄弟连java 编辑:程序博客网 时间:2024/06/06 02:41

首先要安装库:pdfminer3k

from pdfminer.converter import PDFPageAggregatorfrom pdfminer.layout import LAParamsfrom pdfminer.pdfparser import PDFParser, PDFDocumentfrom pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreterfrom urllib.request import urlopen#获取文档#fp=urlopen("https://www.tencent.com/zh-cn/articles/8003451502937229.pdf")fp=open("naacl06-shinyama.pdf","rb")#创建一个与文档关联的解释器parser=PDFParser(fp)#PDF文档的对象doc=PDFDocument()#链接解释器和文档parser.set_document(doc)doc.set_parser(parser)#初始化文档doc.initialize("")#创建PDF资源管理器resource=PDFResourceManager()#参数分析器laparam=LAParams()#创建一个聚合器device=PDFPageAggregator(resource,laparams=laparam)#创建PDF页面解释器interpreter=PDFPageInterpreter(resource,device)#使用文档对象得到页面的集合for page in doc.get_pages():    #使用页面解释器来读取,储存到聚合器中    interpreter.process_page(page)    #使用聚合器来读取的内容    layout=device.get_result()    for out in layout:        #判断out是否有get_text属性        if hasattr(out,"get_text"):            print(out.get_text())

这里写图片描述
这里写图片描述
这里写图片描述

原创粉丝点击