python3安装 使用 pdfminer3k python在线、本地读取PDF文件
来源:互联网 发布:大数据技术案例应用 编辑:程序博客网 时间:2024/06/05 20:54
pdfminer3k 在线、本地读取PDF文件
- pdfminer3k 在线本地读取PDF文件
- 上资源
- 上代码
- 安装pdfminer3k
上资源
官网pdfminer3k
下载pdfminer3k
上代码
就着注释看代码,是一件美差。
#! python3# -*- coding: utf-8 -*-"""@Time : 2017/8/17 18:07@Author : typhoon@Site :@File : test_has_package_python3.py@Software: PyCharm@desc : parse pdf"""import importlibimport sysimport randomfrom urllib.request import urlopenfrom urllib.request import Requestfrom pdfminer.converter import PDFPageAggregatorfrom pdfminer.layout import LTTextBoxHorizontal, LAParamsfrom pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreterfrom pdfminer.pdfinterp import PDFTextExtractionNotAllowedfrom pdfminer.pdfparser import PDFParser, PDFDocument''' 解析pdf 文本,保存到txt文件中'''importlib.reload(sys)user_agent = ['Mozilla/5.0 (Windows NT 10.0; WOW64)', 'Mozilla/5.0 (Windows NT 6.3; WOW64)', 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:54.0) Gecko/20100101 Firefox/54.0', 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11', 'Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko', 'Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.95 Safari/537.36', 'Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; rv:11.0) like Gecko)', 'Mozilla/5.0 (Windows; U; Windows NT 5.2) Gecko/2008070208 Firefox/3.0.1', 'Mozilla/5.0 (Windows; U; Windows NT 5.1) Gecko/20070309 Firefox/2.0.0.3', 'Mozilla/5.0 (Windows; U; Windows NT 5.1) Gecko/20070803 Firefox/1.5.0.12', 'Opera/9.27 (Windows NT 5.2; U; zh-cn)', 'Mozilla/5.0 (Macintosh; PPC Mac OS X; U; en) Opera 8.0', 'Opera/8.0 (Macintosh; PPC Mac OS X; U; en)', 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.12) Gecko/20080219 Firefox/2.0.0.12 Navigator/9.0.0.6', 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Win64; x64; Trident/4.0)', 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0)', 'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.2; .NET4.0C; .NET4.0E)', 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Maxthon/4.0.6.2000 Chrome/26.0.1410.43 Safari/537.1 ', 'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.2; .NET4.0C; .NET4.0E; QQBrowser/7.3.9825.400)', 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:21.0) Gecko/20100101 Firefox/21.0 ', 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.92 Safari/537.1 LBBROWSER', 'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0; BIDUBrowser 2.x)', 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.11 TaoBrowser/3.0 Safari/536.11']def parse(_path): # fp = open(_path, 'rb') # rb以二进制读模式打开本地pdf文件 request = Request(url=_path, headers={'User-Agent': random.choice(user_agent)}) # 随机从user_agent列表中抽取一个元素 fp = urlopen(request) #打开在线PDF文档 # 用文件对象来创建一个pdf文档分析器 praser_pdf = PDFParser(fp) # 创建一个PDF文档 doc = PDFDocument() # 连接分析器 与文档对象 praser_pdf.set_document(doc) doc.set_parser(praser_pdf) # 提供初始化密码doc.initialize("123456") # 如果没有密码 就创建一个空的字符串 doc.initialize() # 检测文档是否提供txt转换,不提供就忽略 if not doc.is_extractable: raise PDFTextExtractionNotAllowed else: # 创建PDf资源管理器 来管理共享资源 rsrcmgr = PDFResourceManager() # 创建一个PDF参数分析器 laparams = LAParams() # 创建聚合器 device = PDFPageAggregator(rsrcmgr, laparams=laparams) # 创建一个PDF页面解释器对象 interpreter = PDFPageInterpreter(rsrcmgr, device) # 循环遍历列表,每次处理一页的内容 # doc.get_pages() 获取page列表 for page in doc.get_pages(): # 使用页面解释器来读取 interpreter.process_page(page) # 使用聚合器获取内容 layout = device.get_result() # 这里layout是一个LTPage对象 里面存放着 这个page解析出的各种对象 一般包括LTTextBox, LTFigure, LTImage, LTTextBoxHorizontal 等等 想要获取文本就获得对象的text属性, for out in layout: # 判断是否含有get_text()方法,图片之类的就没有 # if hasattr(out,"get_text"): if isinstance(out, LTTextBoxHorizontal): results = out.get_text() print("results: " + results)if __name__ == '__main__': url = "http://www.caac.gov.cn/XXGK/XXGK/TJSJ/201708/P020170821330916187824.pdf" parse(url)
安装pdfminer3k
此为python3的包,so pyhon2.7的同学请见谅
一般只安装了python3 安装使用语句
pip install pdfminer3k
若python同时安装了几个版本(python2.7 and python3.6)
pip3 install pdfminer3k或者py -3 -m pip install pdfminer3k
运行python3程序
py -3 test.py
阅读全文
2 0
- python3安装 使用 pdfminer3k python在线、本地读取PDF文件
- php 在线读取PDF文件
- Python读取PDF文件
- python读取pdf文档-文件
- 使用PDFBox读取pdf文件
- 使用iText读取PDF文件
- 【python PDF解析】python 读取PDF文件内容
- 保存在线阅读的PDF文件到本地
- 使用tcpdf软件 在线预览pdf文件
- 使用FlexPaper实现PDF文件在线预览
- 使用FlexPaper实现PDF文件在线预览
- pdf.js使用(在线预览pdf文件)
- PDF.js插件的使用--在线浏览PDF文件
- UIWebView打开doc和PDF文件,实现本地读取
- CentOS7 在线安装 Python3
- python网络爬虫文档读取-PDF文件读取
- 使用xpdf读取PDF文件内容
- Qt读取pdf文件使用MuPdf库
- Laravel学习过程之基础知识学习和使用(二)
- 2017-8-21破损的键盘 UVa 11988
- The content of element type "configuration" must match "(properties?,settings?,typeAliases?,typeHand
- Merge, join, and concatenate合并,加入和连接
- SpringMVC启动过程详解(li)
- python3安装 使用 pdfminer3k python在线、本地读取PDF文件
- 阿里云Windows2008外网无法访问开启80端口实现外网访问网站
- SFDC之trigger那些事儿
- 将jar生成为maven需要的jar格式
- 【C#学习】Reflection 反射
- 2017中国大学生程序设计竞赛(网络选拔赛) HDU 6154 CaoHaha's staff
- caffe 输出信息分析+debug_info
- Privacy Policy
- 鸡汤有毒,以毒攻毒