用python读取pdf文档
来源:互联网 发布:兄弟连java 编辑:程序博客网 时间:2024/06/06 02:41
首先要安装库:pdfminer3k
from pdfminer.converter import PDFPageAggregatorfrom pdfminer.layout import LAParamsfrom pdfminer.pdfparser import PDFParser, PDFDocumentfrom pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreterfrom urllib.request import urlopen#获取文档#fp=urlopen("https://www.tencent.com/zh-cn/articles/8003451502937229.pdf")fp=open("naacl06-shinyama.pdf","rb")#创建一个与文档关联的解释器parser=PDFParser(fp)#PDF文档的对象doc=PDFDocument()#链接解释器和文档parser.set_document(doc)doc.set_parser(parser)#初始化文档doc.initialize("")#创建PDF资源管理器resource=PDFResourceManager()#参数分析器laparam=LAParams()#创建一个聚合器device=PDFPageAggregator(resource,laparams=laparam)#创建PDF页面解释器interpreter=PDFPageInterpreter(resource,device)#使用文档对象得到页面的集合for page in doc.get_pages(): #使用页面解释器来读取,储存到聚合器中 interpreter.process_page(page) #使用聚合器来读取的内容 layout=device.get_result() for out in layout: #判断out是否有get_text属性 if hasattr(out,"get_text"): print(out.get_text())
阅读全文
0 0
- 用python读取pdf文档
- python读取pdf文档
- python 读取 pdf 文档
- python读取pdf文档-文件
- python读取pdf文档-实战
- python网络爬虫文档读取-PDF文件读取
- c#读取pdf文档
- Python读取pdf文档 只读文本的情况
- 用Python 爬虫批量下载PDF文档
- Python读取PDF内容
- Python读取PDF
- Python读取PDF文件
- 用iTextSharp读取PDF文档中文本内容的探索
- 用iTextSharp读取PDF格式文档中的文本内容
- python 读取xml文档
- python读取csv文档
- .net如何读取PDF文档的内容
- IOS读取和显示PDF文档
- Qt Creator 无法调试
- jdk环境变量配置好了,测试java、javadoc命令行提示javac、javadoc却不是内部命令?
- hdu4597 PlayGame(区间dp)
- Java多线程--线程优先级
- Guava使用之MultiMap
- 用python读取pdf文档
- [编程题] 计算糖果
- 到底IPv4有多少个地址
- UVA 673
- USB3.0 对 2.4G WiFi 影响
- HDU6183-Color it Time
- 今天开始,每天一篇整理之前的笔记发到CSDN啦,要养成好习惯~
- web服务器负载均衡实现
- 添加自己的cmd/运行命令