用python从pdf中提取信息,转为txt或者html
来源:互联网 发布:纸黄金 近两年数据 编辑:程序博客网 时间:2024/05/13 15:25
主要用到了pdfminer这个库
原文地址:
http://www.bkjia.com/Pythonjc/1073800.html
示例代码
# -*- coding: utf-8 -*- from pdfminer.pdfparser import PDFParserfrom pdfminer.pdfdocument import PDFDocumentfrom pdfminer.pdfpage import PDFPagefrom pdfminer.pdfpage import PDFTextExtractionNotAllowedfrom pdfminer.pdfinterp import PDFResourceManagerfrom pdfminer.pdfinterp import PDFPageInterpreterfrom pdfminer.pdfdevice import PDFDevicefrom pdfminer.layout import *from pdfminer.converter import PDFPageAggregatorimport osfp = open('test.pdf', 'rb')#来创建一个pdf文档分析器parser = PDFParser(fp) #创建一个PDF文档对象存储文档结构document = PDFDocument(parser)# 检查文件是否允许文本提取if not document.is_extractable: raise PDFTextExtractionNotAllowedelse: # 创建一个PDF资源管理器对象来存储共赏资源 rsrcmgr=PDFResourceManager() # 设定参数进行分析 laparams=LAParams() # 创建一个PDF设备对象 # device=PDFDevice(rsrcmgr) device=PDFPageAggregator(rsrcmgr,laparams=laparams) # 创建一个PDF解释器对象 interpreter=PDFPageInterpreter(rsrcmgr,device) # 处理每一页 for page in PDFPage.create_pages(document): interpreter.process_page(page) # 接受该页面的LTPage对象 layout=device.get_result() for x in layout: if(isinstance(x,LTTextBoxHorizontal)): with open('a.txt','a') as f: f.write(x.get_text().encode('utf-8')+'\n')
0 0
- 用python从pdf中提取信息,转为txt或者html
- 从PDF中提取信息----PDFMiner
- .NET用正则表达式从HTML中提取信息
- Python笔记从html中提取字段
- 如何从pdf文件中提取有用信息
- Python脚本利用openoffice将office文档转为html或者pdf。
- 用Python将gml文件中边的信息输出为csv(或者txt)格式
- 如何从txt中或者codeblocks中提取出某一列的数值
- 怎么用pdfBox从pdf文件中提取images。
- 如何从PDF文件中提取矢量图
- 从0开始,用python提取html链接
- shell实现txt转为html
- 用C#从MP3中提取歌曲信息
- 用RHive从历史数据中提取逆回购信息
- Nodejs中利用phantom把html转为pdf或图片格式
- 【详解】Python从数据库提取数据写入txt
- 从txt文件中读取配置信息
- 从MP3中提取歌曲信息
- 启动远程service的两种方式:显示和隐式
- Java学习日志之BeanUtils&junit
- Mysql命令行插入语句输入汉字就报错"1366"
- MySql批量插入优化Sql执行效率
- Linux内核部件分析 设备驱动模型之device-driver
- 用python从pdf中提取信息,转为txt或者html
- cts-基础库tradefederation配置
- Java千百问_01基本概念(013)_Socket、SocketChannel有什么区别
- Linux内核部件分析 连通世界的list
- 系统抖动
- js---javaScript 1、语法实例
- Linux 系统应用编程——网络编程(服务器模型)
- Linux内核部件分析 原子性操作atomic_t
- 安卓eclipse开发闪退