如何在Groovy下导出PDF的文本内容
来源:互联网 发布:nc 数据库的结构 编辑:程序博客网 时间:2024/06/16 21:46
其实很多软件都可以把PDF导出成文本,甚至很多支持批量操作,这里不赘述。本文的内容是如何在Java环境下用代码来完成这个功能。
用到的api是apache的pdfbox:官网下载页面
例程:
import org.apache.pdfbox.util.*import org.apache.pdfbox.pdmodel.*def file = .... // 在这一行搞定你的PDF文件的File对象def text = new StringBuilder()def pdfdef stripper = new PDFTextStripper()try { pdf = PDDocument.load(file) def pages = pdf.numberOfPages (1..pages).each { page -> stripper.startPage = page stripper.endPage = page text << stripper.getText(pdf) }} catch(e) { // Whatever you want...} finally { pdf?.close() }println text
这段代码逐页的解析PDF文件,当然你不必要这样做,一下子导出全文也可以,不过飞叔我是保守主义者……
注意,有些PDF具备安全限制,这时你需要到这里下载 bcprov-ext 的文件,加上这个 jar 后就可以读了。
××××××××××××××
吐槽:我怎么也没有想明白为神马AdobeReader的文本导出速度如蜗牛似乌龟,好歹他们也是把握着标准的人呀……
- 如何在Groovy下导出PDF的文本内容
- 如何编辑修改PDF文件的文本内容
- PDF的文本内容怎么编辑设置
- 怎样设置PDF的文本内容
- Linux 下 将PDF文件中的文本,图片导出的方法。
- 如何获取在编辑框中选择的文本内容
- 如何编辑pdf文件并添加文本内容
- 如何在linux下,下载目录下所有的文本
- 文本导出到pdf文件
- qt如何导出pdf格式的文件
- 利用PDFBox提取pdf文件文本内容的分析
- .net如何读取PDF文档的内容
- 如何修改pdf文件的内容
- PDF格式文档的内容如何编辑
- 如何编辑修改PDF文件的内容
- 如何编辑pdf文件的背景内容
- 如何在ABBYY PDF Transformer+中进行文本识别
- 如何在ABBYY PDF Transformer+中进行文本识别
- 《黑马程序员》银行业务调度
- hbaseのZKAssign
- Lua配置
- C#读书笔记----浅度复制与深度复制
- Apache模块开发helloworld无错版
- 如何在Groovy下导出PDF的文本内容
- ISE warning 底层block被优化删除
- linux下修改默认MYSQL的root管理密码
- 在ApacheHTTPD服务器中使用DSO完全分析
- Linux [root@bogon]怎么改成[root@yourname]
- 海量数据的意义
- Java 使用BufferedWriter和BufferedReader copy file
- Java 读取一段英文文档统计每个单词出现的次数和单词的总数
- swf图像数据的简单提取