【学习档案】word文档转为XML格式

来源:互联网 发布:js数组添加数组concat 编辑:程序博客网 时间:2024/04/28 10:37

------------------------------------------2013.7.26------------------------------------------

近地面大气温度31°C,天气晴。

昨天了解到java有一个jacob开源库可以将word转换为html格式。

【猜想】word中的图表信息会在html中转换为相似的table等标签进行存储。

如果猜想正确的话,便可以分析提取html文档中的有效信息,进一步生成规定格式的xml文档。


【下午的工作】

上午的猜想完全正确。

在浏览了一些关于jacob的资料之后,成功的引用jacob库将包含表格的word文档转化成了html及txt格式。

特别感谢ID=捂汗县长 文章中的资料。

参考资料:jacob 实现Office Word文件格式转换..:http://blog.csdn.net/laoyaotask/article/details/9391435

期间遇到了无法读写源word文档的问题,是由该源文件为只读格式引起的,更改之后问题解决。


【下步计划】

因为转化成的html文档也只是单纯的文本,而不存在标签,所以在比较之后决定直接使用txt格式的文档使用自然语言处理(NLP)对其进行数据的挖掘。



------------------------------------------2013.7.31------------------------------------------

近地面大气温度29°C,天气晴,略有雾霾。

明天就踏上回家的旅程了~略开心,虽然取票的时候遇到了一些小波折。

【想法】希望今天可以把批量转化实现,打算继续使用java来实现,主要是为了方便之前的代码拼合。


【上午的工作】

实现了今天的想法。将指定目录下的所有word文档批量转化为了txt文档。

了解了java中的一些关于文件调用的方法。

//获取当前文件对象的文件名,转为字符串格式并判断是否以.doc结尾File file.getName().toString().endWith(.doc);//判断该文件对象是否为文件夹File file.isDirectory();//获取路径下所有的文件和文件夹【.listFile()】File[] files = path.listFiles(new FileFilter()

参考资料来源:

java遍历目录下所有后缀名为.java文件:http://zhidao.baidu.com/question/229445883.html

java FileFilter 过滤只保留文件夹和.xls文件:http://zhidao.baidu.com/question/538907121.html


【下步计划】

其实就是26号的【下步计划】,不过转换成xml的方法初期将换为正则表达式。


——————————因为学习计划变更,该项目暂时终止——2014.3.7——————————

原创粉丝点击