Microsoft Office格式分析

来源:互联网 发布:java实战1200例 1 编辑:程序博客网 时间:2024/05/21 05:59

Microsfot Office格式分析


1. 格式分类

    复合文档(Office2003/2000/97)

    OOXML文档(Office Open XML,Office2012/2010/2007)


2. 解析开源包

    POI 

Apache POI,使用语言是Java,目前两种格式的文档都能解析

        官网: http://poi.apache.org/index.html


    NPOI

    NPOI是.net版本的poi

    http://npoi.codeplex.com/


    docx4j 

     docx4j is a Java library for creating and manipulating Microsoft Open XML (Word docx, Powerpoint pptx, and Excel xlsx) files

         使用语言是Java

        官网:http://www.docx4java.org)


3. 参考资料:

http://blog.csdn.net/jkingcl/article/details/4544898

http://chenhailong.iteye.com/blog/1498528

http://www.iteye.com/topic/420319


1、了解 Office 二进制文件格式:http://msdn.microsoft.com/zh-cn/library/gg615407(v=office.14).aspx
2、了解 Word MS-DOC 二进制文件格式:http://msdn.microsoft.com/zh-CN/library/gg615596
3、了解 PowerPoint MS-PPT 二进制文件格式:http://msdn.microsoft.com/zh-CN/library/gg615594
4、了解采用 Office 二进制文件格式的图形:http://msdn.microsoft.com/zh-CN/library/gg985447
5、在二进制 PowerPoint MS-PPT 文件中查找图形:http://msdn.microsoft.com/zh-CN/library/hh244173

6、http://www.cnblogs.com/mayswind/archive/2013/03/31/2991271.html