python解析pdf文件

来源:互联网 发布:702qq.com域名更改为 编辑:程序博客网 时间:2024/06/07 17:36

最近用Python爬虫的时候,牵涉到读取网页PDF文件内容的步骤,所以找来找去,找到了PDFMiner这个库。

使用这个库,解析本地PDF文件(我先把网页的PDF文件下载了下来,发现和下载图片的过程是一样的,都是保存数据,并保存为指定的文件名即可) 准确率十分的高。

我并没有系统地学习这个库,而是参考了这篇文章。


http://blog.csdn.net/fighting_no1/article/details/51038942


感谢这位作者,写的十分详细。

原创粉丝点击