Java中用iText导出DPF文档的纯文本内容
来源:互联网 发布:学会计哪个软件好 编辑:程序博客网 时间:2024/05/02 04:58
iText作为在Java中处理PDF文档的工具被广泛使用,各种开源项目中都比较常见。现在就使用iText提供的API将PDF文档中的文本信息导出为纯文本,虽然现在很多工具中都已经支持这样的操作,这是第一步也算是读取PDF文件最常见的需求。
首先下载iText包,地址为http://sourceforge.net/projects/itext/,最新版本为5.1.2,完整包名为iText-5.1.2.zip,解压后将得到一组jar包,我们要使用的是里面的itextpdf-5.1.2.jar。在本地配置好Java编译和运行环境后,编写如下示例代码:
import java.io.IOException;import com.itextpdf.text.pdf.PdfReader;import com.itextpdf.text.pdf.parser.PdfReaderContentParser;import com.itextpdf.text.pdf.parser.SimpleTextExtractionStrategy;import com.itextpdf.text.pdf.parser.TextExtractionStrategy;public class PDFReader { /** * @param args * @throws IOException */ public static void main(String[] args) throws IOException { System.out.print(getPdfFileText("E:\\test\\plugindoc.pdf")); } public static String getPdfFileText(String fileName) throws IOException { PdfReader reader = new PdfReader(fileName); PdfReaderContentParser parser = new PdfReaderContentParser(reader); StringBuffer buff = new StringBuffer(); TextExtractionStrategy strategy; for (int i = 1; i <= reader.getNumberOfPages(); i++) { strategy = parser.processContent(i, new SimpleTextExtractionStrategy()); buff.append(strategy.getResultantText()); } return buff.toString(); }}
上述的代码读取本地磁盘的PDF文件,并将结构输出到标准输出。其中导出文本的部分由一个静态方法完成,在mian方法中对其调用,把方法的返回值输出到标准输出。使用javac编译该源代码文件,编译工程中将上面提到的jar包加入到classpath,执行时也使用相同的classpath设置。
- Java中用iText导出DPF文档的纯文本内容
- iText的使用例子说明(利用Itext画模板导出word、pdf,纯java实现)
- Java和iText导出pdf文档
- Java导出PDF文档使用iText操作
- Java导出Word文档使用iText操作
- java提取文档纯文本
- Itext导出Word文档的例子
- Itext导出Word文档的例子
- java 读取本地文本文档的内容
- IText导出Word文档
- java获取HTML纯文本内容 body
- 使用itext导出word文档
- 使用itext导出含表格的word文档
- JavaScript权威指南_126_第15章_脚本化文档_15.5-元素的内容-纯文本
- Java去掉字符串中所有的标签,获取纯文本内容,获取src
- Java去掉字符串中所有的标签,获取纯文本内容
- jsf中用java代码把一个list的内容导出到本地excel
- Struts2利用iText导出word文档
- 设计师必备的用户界面设计工具,工具包和资源
- 存储过程
- debian (lenny) 下编程工具vim+ctags+taglist的配置
- 最长不重复字符串
- 内存管理内幕
- Java中用iText导出DPF文档的纯文本内容
- 考虑
- smarty使用变量+mysqli+数组+运算+实例
- 简单一点理解推挽输出与开漏输出
- overdue与expire,hardly,nearly 和 almost
- Oracle修改列名
- eclipse 应用tomcat的日志配置
- 1.设置某些资源(如图片,css,js)在浏览器缓存的时间:Filter
- SQL2005删除复制数据库的发布与订阅的方法