开放式文档同构引擎研究

来源:互联网 发布:深圳潮流网络怎么样 编辑:程序博客网 时间:2024/05/02 02:53

在内容安全领域,基于文本信息的内容安全产品都必须对文本进行语义理解和不良(例如,色情、反动等)信息过滤。这类产品(包括垃圾邮件过滤系统、内容网关系统、BBS监管系统等等)都面临着一个统一的问题,即从各式各样的文档中提取出用于理解和过滤的纯文本信息。由于现实世界中的文档具有格式复杂且多样等特性,大多数系统都回避了这个难点问题,所以,对于附件或协议所携带文档,现有系统仅仅过滤了文档的标题、后缀和大小信息。由于获取多格式文档的内容一直是一个难点,所以对这些文档的内容过滤一直是一个空白。该课题的目标是实现一个可以获取多种常见格式文档内容的开放式引擎,从多种多样的文档格式中获取纯文本内容及其所代表的语义,并提供给其它高层系统使用。为此,本课题提出了开放式文档层次模型的概念,介绍了获取格式全信息将要采用的关键技术。多格式文档的同构化可以使其他应用系统摆脱文档分析这个难点,而只专注于系统本身的专有技术。

 

项目交流方式:请发邮件到lgshen@sjtu.edu.cn, 在获得认可的前提下,你可以获得该项目的详细资料和程序代码。