Java抽取word里面文本
来源:互联网 发布:sql存储过程返回值 编辑:程序博客网 时间:2024/06/14 22:36
介绍
现在 microsoft word 有好几个版本 97、2003、2007的,这三个版本存储数据的格式上都有相当大的差别,而现在 97 基本上已经退出市场。本文考虑后面二个版本,要求能够读取 word 中的文字内容,而忽略其中的文字样式、图片等信息。调研发现用 apache 的 POI 可以很好的实现。
读取2003版本(.doc)和2007(.docx)及其以后版本有很大的区别。
POI
主页地址:https://poi.apache.org/
到主页下下载:
poi-bin-3.17-beta1-20170701.tar.gz
需要导入的jar包有:
1. poi-3.17-beta1.jar
2. poi-ooxml-schemas-3.17-beta1.jar
3. poi-ooxml-3.17-beta1.jar
4. xmlbeans-2.6.0.jar
5. openxml4j-bin-beta.jar
前面四个jar包poi-bin-3.17-beta1-20170701.tar.gz里面有,第五个我是自己单独下载的。
实战
import org.apache.poi.POIXMLDocument;import org.apache.poi.POIXMLTextExtractor;import org.apache.poi.hwpf.extractor.WordExtractor;import org.apache.poi.openxml4j.opc.OPCPackage;import org.apache.poi.xwpf.extractor.XWPFWordExtractor;import java.io.File;import java.io.FileInputStream;import java.io.InputStream;/** * Created by yuquanle on 2017/8/25. * POI 读取 word 2003 和 word 2007 中文字内容的 * */public class WordExtract { public static void main(String[] args) throws Exception { //word 2003: 图片不会被读取 InputStream is = new FileInputStream(new File("E://test.doc")); WordExtractor ex = new WordExtractor(is); String text2003 = ex.getText(); System.out.print(text2003.replaceAll("\\s*","")); //word 2007: 图片不会被读取 OPCPackage opcPackage = POIXMLDocument.openPackage("E://test.docx"); POIXMLTextExtractor extractor = new XWPFWordExtractor(opcPackage); String text2007 = extractor.getText(); System.out.println(text2007); }}
参考:http://blog.csdn.net/hemingwang0902/article/details/4381598
阅读全文
0 0
- Java抽取word里面文本
- 使用Java基于数据流直接抽取word文本
- java 抽取word,excel,pdf
- 002_027 Python 从微软Word文档中抽取文本
- java抽取word,pdf等数据
- Java抽取Word和PDF格式文件
- word文本类型在sqlserver2008里面采用类型k
- 【转贴】java抽取word,pdf的四种武器
- java抽取word,pdf的四种武器
- Java抽取Word,PDF的四种武器
- Java抽取Word,PDF的四种武器
- Java抽取Word,PDF的四种武器
- Java抽取Word,PDF的四种武器
- Java抽取Word,PDF的四种武器
- java抽取word,pdf的四种武器
- java抽取word,pdf的四种武器
- 编程:Java抽取Word,PDF的四种武器
- java抽取word,pdf的四种武器
- es6的export default,export,import的区别
- windos 快捷键简单使用
- CUDA进阶补充篇:详析各种CUDA函数计时函数
- Objective-C之 深拷贝和浅拷贝、copy和mutableCopy(可以验证下)
- 在APP内实现顶层窗口,悬浮窗功能。
- Java抽取word里面文本
- select2 使用记录 (3.5.1版本)
- Python实现车辆租赁管理软件
- 线程池Executors.newFixedThreadPool
- Tomcat 本地部署 【404】错误解决
- 搭建vue.js环境
- Linux相关知识
- 实现短信验证码5分钟有效时间
- tensorflow: interrupted by signal 9: SIGKILL