Word 2007敏感信息及存储结构

来源:互联网 发布:软件红蜘蛛 编辑:程序博客网 时间:2024/06/11 00:45

Word 2007 文档结构

一、Word2007敏感信息的可能存储位置

1.批注、修订中的修订标记、版本和墨迹注释   

文档可能包含诸如修订中的修订标记、批注、墨迹注释或版本等项目。此信息使其他人能够看到文档处理人员的姓名、审阅者批注以及对文档所做的更改。

2.文档属性和个人信息

文档属性也称为元数据,它包括关于文档的详细信息(例如作者、主题和标题.评论、已删除文本、旧版本等),还包括由 Office 程序自动维护的信息(例如最近保存文档的人员的姓名以及文档的创建日期)。如果使用了特定的功能,word文档还可能包括其他类型的个人身份信息 (PII),例如电子邮件标题、请求审阅信息、传送名单和模板名称。

3.页眉、页脚和水印

Word 2007文档可能在页眉和页脚中包含信息。此外,可能在 Word 文档中添加了水印。

4.隐藏文字

Word2007 文档可以包含设置为隐藏文字格式的文本。可以使用“文档检查器”来搜索隐藏文字。

5.文档服务器属性

如果文档保存在文档管理服务器上的某个位置(如基于 Microsoft Windows SharePoint Services 的“文档工作区”网站或库),该文档可能包含与此服务器位置有关的其他文档属性或信息。

6.自定义 XML 数据   

文档可能包含在文档本身中不可见的自定义 XML 数据。“文档检查器”可以查找并删除这些 XML 数据。

:以上敏感信息都可以用word文档检查器检查和去除.

二、Word2007文档的基本结构

Word将包的内容分成许多逻辑部件,每个部件存储了一个特定的    文档部分,例如:

1.注释

2.格式定义

3.列表定义

4.页眉

5.图表

6.关系图

7.文档内容

8.图片

在包中,Word使用单独的文件来表示文档中的每个部分.这些部件可以由XML文件组成,例如包含标记的Word XML格式的文档部件,以及附加的内容,例如二进制的图片文件.所有的这些都包含在包中.但是,更为重要的是,通过开放打包约定定义的一些例外,实际的文件目录结构是任意的.

包中文件的关系决定了文件的有效性.可以重新排布和命名ZIP容器当中的部件,只要保证正确的更新关系,并且保证文档部件之间正确的关联就可以.如果关系是正确的,就可以无误的打开文档.

例如,在Word 2007中,容器文件代表了一个文档.在容器文件中,按序排布的部件组成了文档.例如,一个Word2007文件一般包含下列目录和文件:


1.[Content_Types].xml.描述出现在文件中的每个内容类型.

2.rels folder. 存储所有指定部件的关系部件.

3.docProps folder.包含了应用程序的属性部件.

3.1App.xml file. 包含了应用程序特定的属性.如文档字数,行数.

3.2Core.xml file. 包含了所有基于开放打包约定文档格式的通用文件属性.如文档的作者,单位等信息.

4.Word folder文字信息

4.1theme folder. 包含了应用程序使用的样式.

4.2media folder 包含了多媒体信息,如图片.

4.3rels folder. 存储所有指定部件的关系部件.

4.4document.xml 是主XML文档,其中包含了Word文档中所有文字的内容和属性以及非文字内容的属性.

4.5endnotes.xml  fontTable.xml footnotes.xml webSettings.xml header1.xml                 分别描述了尾注,字体表, 脚注, Web设置,页眉,

4.datastore folder.包含了文档中的自定义XML数据部件.自定义XML数据部件是一个XML文件,您可以将节点绑定到文档的内容控件中.默认不存在

5.item1.xml file. 包含了一些文档中出现的数据.例如自定义XML数据部件.默认不存在

扫描office2007文档敏感信息,可以把要扫描的文档复制一份,解压后或直接遍历操作其中的xml文件,与敏感词进行匹配.java在处理zip和xml文件方面比较方便.所以可以考虑用java做.

      Office2007都是基于OpenXml格式的,只是里面的结构不大相同。都可以解压或直接提取里面的xml文档,如果要测试敏感信息的话,理论上都可以采取上面的方法。

在Office2007以前,例如ofice2003,其实是一个扩展名为.doc的二进制文件。该文件的内部格式是非常复杂的,并且扩展性和灵活性差.现在还没有找到关于Word2003数据存储的资料.