python读取pdf文档-实战
来源:互联网 发布:格罗滕迪克 知乎 编辑:程序博客网 时间:2024/06/06 20:48
# -*- coding: utf-8 -*-#读取pdf文档from pdfminer.converter import PDFPageAggregatorfrom pdfminer.layout import LAParamsfrom pdfminer.pdfparser import PDFParser,PDFDocumentfrom pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreterfrom pdfminer.pdfdevice import PDFDeviceimport pdfminer.pdfinterp#获取文档对象fp = open("naacl06-shinyama.pdf","rb")#创建一个与文档关联的解释器parser=PDFParser(fp)#PDF文档对象doc = PDFDocument()#链接解释器和文档对象parser.set_document(doc)doc.set_parser(parser)#初始化文档doc.initialize("")#创建pdf资源管理器resource = PDFResourceManager()#参数分析器laparam = LAParams()#创建一个聚合器device = PDFPageAggregator(resource,laparams=laparam)#创建PDF页面解释器interpreter=PDFPageInterpreter(resource,device)#使用文档对象得到页面的集合for page in doc.get_pages(): #使用页面解释器来读取 interpreter.process_page(page) #使用聚合器来获取内容 layout= device.get_result() for out in layout: if hasattr(out,"get_text"): print(out.get_text())
0 0
- python读取pdf文档-实战
- python读取pdf文档
- python 读取 pdf 文档
- python读取pdf文档-文件
- 用python读取pdf文档
- python网络爬虫文档读取-PDF文件读取
- c#读取pdf文档
- Python读取pdf文档 只读文本的情况
- Python开发实战pdf
- Python读取PDF内容
- Python读取PDF
- Python读取PDF文件
- python 读取xml文档
- python读取csv文档
- 深入浅出实战攻防恶意PDF文档
- .net如何读取PDF文档的内容
- IOS读取和显示PDF文档
- PDF文档的读取,vudroid(Android)
- Discuz!开发之字符串处理函数dhtmlspecialchars介绍
- 卡方检验思想及其应用
- 学习MVC之租房网站(一)-项目概况
- Scanner
- 欢迎使用CSDN-markdown编辑器
- python读取pdf文档-实战
- MapXtreme绿色部署
- 递归递推练习总结
- 人月神话之第一章焦油坑
- 泛型接口类
- java锁的种类
- Kana Dict 第一版发布
- Distributed System: MapReduce 可调参数与优化方向
- spring-mvc注解(mvc:annotation-driven,JSON,配置详解)