中文知识管理风光无限

来源:互联网 发布:如何学软件测试 编辑:程序博客网 时间:2024/04/30 12:48


潘越
  IBM中国研究中心博士

    知识管理技术是实现有效知识管理的基础,是协助人们识别、获取、存储、分解、利用、传递和扩展知识的一种技术体系。它包括的技术内容非常繁多,其中最重要的是文档管理技术、文本挖掘与检索技术、企业知识门户技术等。


  主要技术


  (1)文档管理技术。

  知识管理技术中的文档管理不是信息技术里的文件管理,更类似于档案管理。它具有分类归档、外部特征管理、关键词管理等功能。

  分类归档功能用于把各种体裁的文档纳入知识管理系统的文档管理系统中,包括新闻稿、产品说明书、设计资料、演示文档、工作报告等企业运营中产生的各种文档,同时系统还能将上述文档在目录中列出、打开和编辑。外部特征管理功能,能自动提取文档的外部特征,并允许按文档外部特征进行检索。关键词管理功能允许使用者给出文档的关键词以便检索。

  (2)文本挖掘与检索技术。

  检索技术通常采取两种方案:一是将文档归入一个有序的结构,再按结构规则提取文档(检索),这种方法也被称为文本挖掘(text mining);另一种方案是不建立结构,在检索时,用户自由地输入检索词或短语,由系统进行匹配,并将匹配到的文档按检索词出现频率的统计规则提供给用户,即全文检索。

  结构化方案本身又可分为两种:一是由机器根据文档特征,按一定算法自动建立有序的结构,并将文档归入该结构;其二是人工建立结构,再人工将文档归入结构。第一种方法的代表产品是IBM的Text Miner。

  (3)企业知识门户技术。

  企业知识门户现在已经成为知识管理系统的标准配置。对用户来说,企业门户是信息系统的唯一界面,日常工作的一切事务都可在企业门户中完成。例如,在企业门户中可以打开各类文档进行编辑、访问数据库、访问Internet和Intranet、收发邮件、进入工作流操作等。企业门户还可按不同需求定制。总之,企业门户试图将日益复杂的应用集成到一个统一的平台上。


  针对中文的知识管理技术


  中文是世界上使用人口最多的语言,但现代信息技术对中文的贡献却远远落后于其它语言。目前成熟、领先的知识管理技术都针对于英语、法语等语种,在中文内容的理解、检索和表示上都存在着或多或少不尽人意的地方,对中文内容管理技术的投入也远远低于其他语言。此外,中国企业的管理体制与西方大不相同,因此需要针对中文知识管理专门开发一些技术。

  IBM一直致力于中文自然语言理解技术的研究,并在此研究基础上,开发出了一系列用于中文知识管理的技术,包括中文智能检索技术、中文摘要智能生成技术、中文文本自动分类技术、中文文本自动聚类技术、中文主题检测与追踪技术及中文文本消重与相似检索技术。在这些技术中,IBM采用了最新的自然语言处理算法。

  中文智能检索技术:一般包括索引创建、查询处理和结果排序等内容。为了提高中文检索的速度和准确性,IBM的中文智能检索技术在检索的整个过程中都使用了先进的中文处理技术,同时还考虑最终用户的使用环境与习惯,使查询结果能够最大程度地满足用户的要求,从而提高用户的查询效率。

  文本自动分类技术:用户只需要事先定义好分类器的架构,并经过适当的训练,之后系统便可以依据分类器的内容对新的文本自动分类。分类时,除了用参考以前训练样本的统计数据外,用户还可以指定特殊的规则进行分类时的参考。这个技术可应用在多个领域中。

  文本自动聚类技术:可让用户对大量的文章进行快速且粗略的分类。通过本技术,使用者可以对大量的文章进行快速的分类。

  自动摘要生成技术:用户可以快速从多篇文章中,挑出重要的或感兴趣的文章阅读。使用时,使用者可动态决定生成摘要的大小,摘要的内容,并可针对多篇文章产生一份摘要。

  主题侦测与追踪技术:包含了主题侦测和主题追踪两个功能,用于发现输入流中的新主题,并自动跟踪相关主体的文章,可应用于很大的文档集合。

  自动查重和文章相似检索技术:自动查重和文本相似检索技术可以帮助用户自动发现重复文章、相似文章,可以应用于文档查重等诸多领域。

  IBM所提供的这些中文信息检索技术不仅满足了中国企业知识管理的简单、快速、全面、精确的要求,通过与数据库管理软件IBM DB2 / Content Manager / Information Integrator的集成,将大大提高了工作效率和知识发现能力。
原创粉丝点击