python读取pdf文档-实战

来源:互联网 发布:格罗滕迪克 知乎 编辑:程序博客网 时间:2024/06/06 20:48
# -*- coding: utf-8 -*-#读取pdf文档from pdfminer.converter import PDFPageAggregatorfrom pdfminer.layout import LAParamsfrom pdfminer.pdfparser import PDFParser,PDFDocumentfrom pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreterfrom pdfminer.pdfdevice import PDFDeviceimport pdfminer.pdfinterp#获取文档对象fp = open("naacl06-shinyama.pdf","rb")#创建一个与文档关联的解释器parser=PDFParser(fp)#PDF文档对象doc = PDFDocument()#链接解释器和文档对象parser.set_document(doc)doc.set_parser(parser)#初始化文档doc.initialize("")#创建pdf资源管理器resource = PDFResourceManager()#参数分析器laparam = LAParams()#创建一个聚合器device = PDFPageAggregator(resource,laparams=laparam)#创建PDF页面解释器interpreter=PDFPageInterpreter(resource,device)#使用文档对象得到页面的集合for page in doc.get_pages():    #使用页面解释器来读取    interpreter.process_page(page)    #使用聚合器来获取内容    layout=  device.get_result()    for out in layout:        if hasattr(out,"get_text"):            print(out.get_text())
0 0
原创粉丝点击