python读取pdf文档-实战

来源：互联网发布：格罗滕迪克知乎编辑：程序博客网时间：2024/06/06 20:48

# -*- coding: utf-8 -*-#读取pdf文档from pdfminer.converter import PDFPageAggregatorfrom pdfminer.layout import LAParamsfrom pdfminer.pdfparser import PDFParser,PDFDocumentfrom pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreterfrom pdfminer.pdfdevice import PDFDeviceimport pdfminer.pdfinterp#获取文档对象fp = open("naacl06-shinyama.pdf","rb")#创建一个与文档关联的解释器parser=PDFParser(fp)#PDF文档对象doc = PDFDocument()#链接解释器和文档对象parser.set_document(doc)doc.set_parser(parser)#初始化文档doc.initialize("")#创建pdf资源管理器resource = PDFResourceManager()#参数分析器laparam = LAParams()#创建一个聚合器device = PDFPageAggregator(resource,laparams=laparam)#创建PDF页面解释器interpreter=PDFPageInterpreter(resource,device)#使用文档对象得到页面的集合for page in doc.get_pages():    #使用页面解释器来读取    interpreter.process_page(page)    #使用聚合器来获取内容    layout=  device.get_result()    for out in layout:        if hasattr(out,"get_text"):            print(out.get_text())

0 0