将 Word 文件转换为 HTML 工具类

来源：互联网发布：做网络水军违法吗编辑：程序博客网时间：2024/04/29 20:27

有一段时间 没有写 博客了，过年过的我太逍遥了，大门不出二门不迈，天天闷在家里打穿越火线，都TNN的快变成宅男了，哎，玩物丧志这句话谁说的， 一点都不假，该收敛一下了。

公司的项目 UI 设计阶段基本完成了， 现在步入写工具类的阶段了，公司领导说要把帮助文档，规程文档等等这类的文件嵌入到程序中， 可是帮助文档，规程文档这些东西全都是Word文档， 虽然可以把这些东西通过工具的 转换为 CHM 电子书的格式， 到时后一个连接 就可以 调用 XX帮助电子书文档。

可是有没有更简单的方法？ 例如把 Word 文档直接通过 Html 的格式以网页的形式直接呈现给用户 呢， 当然 是可以的啦，本人 说实话 就是比较懒的那种。

因为那个制作电子书的那个方案 我觉得 太麻烦了 ( 主要是懒得的去研究 那么麻烦的东西）。

经过左思又考 觉得还是 写一个 直接将 Wrod 转为Html 工具类的方式呈现给用户更加的方便简介，不需要 花大量的 时间浪费到电子书制作上。

于是我很快想到了一个解决方案， 那就是 我以前给公司做网站的项目中写了一个 在线文档的模块， 里面有通过将各种文档文件转换为 PDF 之后在通过转换工具

转为SWF 文件以 Flash 的方式 展现给用户（就是类似与百度文库，豆丁在线文档...），于是一个小小的、牛逼的、帅帅的工具产生了，哇~哈哈哈......

（自我感慨的YY了一下，又白话了一堆），切入正题，我所做的操作步骤如下：

第一：下载必备工具OpenOffice.org 3.2 (zh-CN) Installation Files 使用此工具主要是使用其内部服务。

如果想要以工具形式 转换， 此8100服务必须的开啦，要不不能转换的啦。

第二：下载 jodconverter-2.2.2.zip 包，该包中的 lib 包下的 jar 包都是为转换准备的。

第三：下载了不用是不对i地，默认安装 OpenOffice.org 3.2 程序， 有的个别杀毒软件回报一些警告型阻止 提示， 直接给添加到信任服务即可。

第四：安装完毕之后呢，当然是要开启服务了，安装 OpenOffice.org 3.2 的目的就是为了使用其中的 8100 服务地，

打开运行文本框中输入 cmd 进入命令窗口， 进入到你的默认安装路径

【提示一下，一般都会在C:\Program Files\OpenOffice.org 3\program这个路径下，

但是 64位系统中会在 C:\Program Files(x86)\OpenOffice.org 3\program 的这个路径下，

其区别 就是多了一个 (x86)，我自己用的 是 64位的Win7系统，后来发现安装好多软件

都不兼容，郁闷的不得了，现在用的是公司配了 32位的Win7系统。】

依次使用如下两条命令即可：

命令1：cd C:\Program Files\OpenOffice.org 3\program

命令2：soffice -headless -accept="socket,host=127.0.0.1,port=8100;urp;" -nofirststartwizard

执行玩 这两条命令之后， 8100 服务就会 被打开了， 你也可以 使用 netstat -an 这个命令查看 8100 端口是否真的 被打开了。

打开 MyEclipse6.5 , 开发到现在 几乎 MyEclipse这些版本 差不多 都用过了， 但是后期还是觉得 这个 6.5 比较好用，

8.5之后机器卡的的不行， 配置好的机器还可以，配置稍微差点的， 你跑起来 就是到有多么的杯具了。

呃~~~~~好似又脱离正题了，我们继续哈.... 在其中建立一个公共类：名为WordToHtml.java 代码共享如下：

package com.stars.windpowersystem.util;import java.io.BufferedReader;import java.io.File;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.IOException;import java.io.InputStreamReader;import java.net.ConnectException;import java.util.Date;import java.util.regex.Matcher;import java.util.regex.Pattern;import com.artofsolving.jodconverter.DocumentConverter;import com.artofsolving.jodconverter.openoffice.connection.OpenOfficeConnection;import com.artofsolving.jodconverter.openoffice.connection.SocketOpenOfficeConnection;import com.artofsolving.jodconverter.openoffice.converter.OpenOfficeDocumentConverter;/** * 描述: TODO 将Word文档转换成html字符串的工具类 *  * @类名称: WordToHtml * @作者： 宋延军 * @邮箱： songyanjun_stars@126.com * @日期： Feb 9, 2012 10:07:21 AM */public class WordToHtml {/** * 描述: TODO 调用测试 * @标题: main * @设定: @param args * @返回类型: void */public static void main(String[] args) {Long time1 = System.currentTimeMillis();Long time2 = System.currentTimeMillis();System.out.println(toHtmlString(new File("C:/Users/Administrator/Desktop/风电可靠性信息管理系统/01_需求分析文档/风电可靠性管理信息系统需求分析文档V5.0（最新）.doc"), "C:/Users/Administrator/Desktop/风电可靠性信息管理系统/01_需求分析文档/tempDir"));System.out.println("执行效率为："+(time2-time1));}/** * 将word文档转换成html文档 *  * @param docFile   需要转换的word文档 * @param filepath  转换之后html的存放路径 * @return 转换之后的html文件 */public static File convert(File docFile, String filepath) {// 创建保存html的文件File htmlFile = new File(filepath + "/" + new Date().getTime()+ ".html");// 创建Openoffice连接OpenOfficeConnection con = new SocketOpenOfficeConnection(8100);try {// 连接con.connect();} catch (ConnectException e) {System.out.println("获取OpenOffice连接失败...");e.printStackTrace();}// 创建转换器DocumentConverter converter = new OpenOfficeDocumentConverter(con);// 转换文档问htmlconverter.convert(docFile, htmlFile);// 关闭openoffice连接con.disconnect();return htmlFile;}/** * 将word转换成html文件，并且获取html文件代码。 *  * @param docFile  需要转换的文档 * @param filepath 文档中图片的保存位置 * @return 转换成功的html代码 */public static String toHtmlString(File docFile, String filepath) {// 转换word文档File htmlFile = convert(docFile, filepath);// 获取html文件流StringBuffer htmlSb = new StringBuffer();try {BufferedReader br = new BufferedReader(new InputStreamReader(new FileInputStream(htmlFile)));while (br.ready()) {htmlSb.append(br.readLine());}br.close();// 删除临时文件htmlFile.delete();} catch (FileNotFoundException e) {e.printStackTrace();} catch (IOException e) {e.printStackTrace();}// HTML文件字符串String htmlStr = htmlSb.toString();// 返回经过清洁的html文本return clearFormat(htmlStr, filepath);}/** * 清除一些不需要的html标记 *  * @param htmlStr 带有复杂html标记的html语句 * @return  去除了不需要html标记的语句 */protected static String clearFormat(String htmlStr, String docImgPath) {// 获取body内容的正则String bodyReg = "<BODY .*</BODY>";Pattern bodyPattern = Pattern.compile(bodyReg);Matcher bodyMatcher = bodyPattern.matcher(htmlStr);if (bodyMatcher.find()) {// 获取BODY内容，并转化BODY标签为DIVhtmlStr = bodyMatcher.group().replaceFirst("<BODY", "<DIV").replaceAll("</BODY>", "</DIV>");}// 调整图片地址htmlStr = htmlStr.replaceAll("<IMG SRC=\"", "<IMG SRC=\"" + docImgPath + "/");// 把<P></P>转换成</div></div>保留样式// content = content.replaceAll("(<P)([^>]*>.*?)(<\\/P>)",// "<div$2</div>");// 把<P></P>转换成</div></div>并删除样式htmlStr = htmlStr.replaceAll("(<P)([^>]*)(>.*?)(<\\/P>)", "<p$3</p>");// 删除不需要的标签htmlStr = htmlStr.replaceAll("<[/]?(font|FONT|span|SPAN|xml|XML|del|DEL|ins|INS|meta|META|[ovwxpOVWXP]:\\w+)[^>]*?>", "");// 删除不需要的属性htmlStr = htmlStr.replaceAll("<([^>]*)(?:lang|LANG|class|CLASS|style|STYLE|size|SIZE|face|FACE|[ovwxpOVWXP]:\\w+)=(?:'[^']*'|\"\"[^\"\"]*\"\"|[^>]+)([^>]*)>", "<$1$2>");return htmlStr;}}

看哥哥共享的代码，不要不声不响的哦，这样很不地道， 我辛辛苦苦的分享我的经验， 我容易吗我，好的坏的，至少也要评论一下吧，这样才能促进我的动力。

Over！！！

将 Word 文件 转换 为 HTML 工具类

将 Word 文件转换为 HTML 工具类