开放式文档同构引擎研究
来源:互联网 发布:深圳潮流网络怎么样 编辑:程序博客网 时间:2024/05/02 02:53
在内容安全领域,基于文本信息的内容安全产品都必须对文本进行语义理解和不良(例如,色情、反动等)信息过滤。这类产品(包括垃圾邮件过滤系统、内容网关系统、BBS监管系统等等)都面临着一个统一的问题,即从各式各样的文档中提取出用于理解和过滤的纯文本信息。由于现实世界中的文档具有格式复杂且多样等特性,大多数系统都回避了这个难点问题,所以,对于附件或协议所携带文档,现有系统仅仅过滤了文档的标题、后缀和大小信息。由于获取多格式文档的内容一直是一个难点,所以对这些文档的内容过滤一直是一个空白。该课题的目标是实现一个可以获取多种常见格式文档内容的开放式引擎,从多种多样的文档格式中获取纯文本内容及其所代表的语义,并提供给其它高层系统使用。为此,本课题提出了开放式文档层次模型的概念,介绍了获取格式全信息将要采用的关键技术。多格式文档的同构化可以使其他应用系统摆脱文档分析这个难点,而只专注于系统本身的专有技术。
项目交流方式:请发邮件到lgshen@sjtu.edu.cn, 在获得认可的前提下,你可以获得该项目的详细资料和程序代码。
- 开放式文档同构引擎研究
- ONE- Open Navigator Engine 开放式浏览器引擎
- 从FineReport看开放式引擎API
- 关于游戏开放式源代码项目组成引擎核心部分简介
- 脚本引擎初步研究
- 脚本引擎初步研究
- 脚本引擎初步研究
- 分布式游戏引擎研究
- 数据库引擎研究 - Log
- 音视频引擎研究
- Sizzle引擎研究
- id 引擎研究资料
- Appcan自定义引擎文档
- HTML智能解析引擎 好好研究研究
- aiml规范研究文档
- aiml规范研究文档
- JForum研究文档
- wine移植研究文档
- '用户 'sa' 登录失败。该用户与可信 SQL Server 连接无关联,做JSP项目连接数据库
- SQL Server BUG集之自定义函数与group by
- Hibernate中的数据库连接池配置
- Rome使用简单说明一(基本应用)
- 好吃的湖南米粉
- 开放式文档同构引擎研究
- Oracle自治事务的介绍(Autonomous Transactions)PRAGMA AUTONOMOUS_TRANSACTION;
- Don't use extjs
- Rome使用简单说明二(部分关键源码分析)
- 如何创建和管理我的MSSQL数据库(Microsoft SQL 2000数据库)
- 对Rome之我见
- java解惑之x += i;和x = x + i;
- Intellij_IDEA-7.0.5信息安装说明
- 利用CreateProcess API函数来创建相应的进程