WebIE当前研究存在的问题和未来的研究趋势

来源：互联网发布：淘宝中的信息管理系统编辑：程序博客网时间：2024/05/04 01:31

Web信息抽取技术目前已基本成熟，但知识的自动获取实际上仍没有达到完全自动，大部分信息抽取系统只是把原先由领域专家完成的任务转化为用户的任务。在构建通用的知识学习器方面，进行了有益的探讨，但效果不是很理想，当前基于Web的IE系统只能处理特定类型的文本和只能获得部分的精确度，仍面临很多问题。
　　(1) 当前影响Web信息抽取技术广泛应用的两个最主要的因素是：系统性能和系统可移植能力，如何解决好这两方面的问题将决定Web信息抽取系统的发展水平，人工智能研究者一直致力于建造能把握整篇文档的精确内容的系统。这些系统通常只在很窄的知识领域范围内运行良好，向其他新领域移植的性能却很差 [41]。
　　(2) Web信息抽取系统的抽取效率和抽取的准确性有待进一步提高。
　　(3) 目前英文系统在命名实体和实体关系识别方面已达到或接近实用的水平。但在真正的信息提取方面则还有许多问题需要探索。可以看到这些问题中的大部分都涉及到了自然语言处理中的核心难题。
　　(4)定义包含从文本中抽取的重要信息的模版是一个十分困难和复杂的问题，特定流派的文本（如医学结论、科学论文、政策报告等）具有特定的词汇、语法和篇章结构。系统分词与词性标注过程中存在歧义问题，语义特征标注、篇章句法分析等也是一个需要进一步研究的课题。
　　(5)系统在适应不同子语言特征、不同类别的文本方面有待提高。系统应能处理特定语言结构和多语种文本，基于Web 的文档可能与新闻报纸之类的文本有着强烈的差别，必须能适应不同的情况[20]。
　　（6）与国外的Web信息抽取系统相比，中文信息抽取系统的研究还有很大差距[8]。
　　
　　今后的研究
　　针对当前研究存在的问题，今后如何将提高Web信息抽取系统抽取范围的全面性；如何简化学习过程，提高自动化程度；如何提高系统对新网页的适应性，增强系统对Web信息抽取的适应性；如何加强对已有抽取规则的归纳，提高系统的抽取效率和准确性；Web上的信息和网页结构处于不断的更新和变化中，因此应如何感知Web信息和结构的更新变化；目前的Web信息抽取工具一般都是通过学习之后可以对结构相似的一类网页进行抽取，因此应如何判断结构相似；如何提高系统的性能、可移植性的设计以及适应多语种的能力；在中文Web信息抽取系统的研究方面，应如何借鉴国外比较成熟的系统构建技术，并结合汉语的特殊性，充分利用一些基础的汉语研究成果来构建高效、精确的中文Web信息抽取系统；这些问题都是今后Web信息抽取技术研究的热点问题。