A Survey of Web Information Extraction Systems——web信息抽取系统研究现状(一)

来源:互联网 发布:标签打印程序源码 编辑:程序博客网 时间:2024/04/27 14:27

这一篇是信息抽取领域2006年比较权威的综述。其实本来翻译了2002年的一篇综述,那个字数比较少,不过一时蛋疼,把这个也搞了算了。

本人中文英文都很烂,这个基本上是google自动翻译的水准,为了造福与我双语一样烂的后人放在这里。有离谱的地方请“自主规制”。原文全文共18页,大概80000印刷符号,今天半夜翻译了2500汉字。

错误的地方请指出,转载请注明出处,谢谢。

 

A Survey of Web Information Extraction Systems

Chia-Hui Chang, Mohammed Kayed, Moheb Ramzy Girgis, Khaled Shaalan

 

web信息抽取系统研究现状   译/Matrox

 

摘要


     Internet为用户提供了大量格式化的信息,但这也为从不同的信息源中提取相关联的数据带来困难。因此,利用健壮、灵活的信息抽取(IE)系统将web页面转化为对程序友好的结构化数据(如:关系型数据库)愈发变得必要。尽管多种web信息抽取技术已经迅速发展,对这些技术的比较工作却很有限。遗憾的是,由于不同的抽取工具针对的任务不同,只有个别情况下它们得到的结果才能直接进行比较。本文考察了主流的web信息抽取方式,并从三个方面对他们进行比较:工作域,自动化程度,和技术手段。第一个判断标准揭示了为何IE系统不能处理一些特殊结构的网站。第二个从底层技术上对IE系统进行了分类。第三个标准度量了IE系统的自动化程度。我们认为这些判断准则可以定性的评估不同种类的信息抽取技术。

 

关键词——信息抽取,web挖掘,包装器,包装器归纳

 

1介绍

     万维网的爆炸式发展带来了海量的信息来源。然而,由于网络信息来源的异质性,并缺乏结构,浏览与搜索这个巨大信息集合的方式却很有限。成熟的web挖掘系统,比如购物机器人,需要大量的人工维护来处理不同的数据格式。为了将网页转化为结构化数据,研究人员在信息抽取(IE)领域投入了大量的精力。与信息检索(IR)领域不同,后者只关心如何从文档集中辨别相关联的文档,而前者要从文档中提取结构化数据以备“后处理”,这对许多web挖掘应用和检索工具来说至关重要。

     从形式上看,一项信息抽取任务是由它的输入内容和抽取目标决定的。输入内容可以是由自然语言(见图1)书写的文本,或是网上普遍的半结构化文档,比如表格或清单(见图2)。信息抽取的目标可以是一个关系K元组(K是记录的属性数目),或是具有复杂层次结构的数据对象。对于一些IE任务来说,记录的属性可能为空也可能具有多个实例。当多个属性的排列顺序有变化或者出现排版错误时,信息抽取任务的难度就会急剧升高。

     信息抽取工具通常被称为提取器(extractor)或包装器(wrapper)。包装器起初指的是信息集成系统的一个组件,它为多个数据源提供了统一的查询接口。在信息集成系统中,一个包装器通常“封装”了一个信息源(如一个数据库服务器,或一个web服务器),这样信息集成系统可以访问信息源的同时不改变它的核心查询代码。当信息源是web服务器时,包装器通过HTTP协议收集页面,从HTML文档中提取信息,再与其他数据源整合。在这三个过程中,信息抽取得到了最多的关注,于是有时用包装器来指代整个信息抽取程序。总之,包装器与提取器这两个词均可用来描述信息抽取程序。

 

     包装器归纳(WI)或信息抽取(IE)系统是用来生成包装器的工具。一个包装器通常匹配一个特定模式(如一个有限状态机),这个模式依赖于一个抽取规则集合。为了一个新的需求定制的WI系统规模各不相同,这取决于所抽取的文本类型,任务域,和情景(scenario)。为了增强复用性并减少维护的工作量,设计可训练的WI系统已经成为一些研究领域的重要课题,如信息理解、机器学习、数据挖掘等等。本文中所指的信息抽取任务与传统的信息抽取工作有很大的不同,后者的目标仅是从无结构文本中提取数据,而前者要处理半结构化的网络文档,并且通常是在服务器端自动运行。因此,传统的信息抽取工作主要利用自然语言处理技术,如词典、语法等来开发句法模式,而web信息抽取则使用机器学习、模式挖掘等技术找出基于模板的文档的结构。

 

     本文仅探讨应用于web的半结构化文档的抽取工作。我们将用三个自定义的标准来比较流行的WI系统。本文结构组织如下。第2节介绍WI系统分类的相关工作,其中简述了用于评估WI系统的三个指标。第3节详细介绍了每个评测标准。第4节概述了现在流行的IE工具,并通过一个可执行的样例来方便理解。第5节从三个方面比较分析了前述的IE工具。第6节给出结论。

 

2.相关研究

 

近年来许多技术被应用于信息抽取中,如机器学习,模式识别等。它们的自动化程度各不相同。本节中我们主要概述了前人所提出的IE工具分类方法。

 

信息理解会议(MUCs)促进了早期IE技术的发展。文本的信息抽取主要包含五方面的工作,包括命名实体识别,共指消解,模板元素创建,模板关系创建,和情节模板生成等。MUCs对于IE领域的意义在于其促使研究人员将IE技术分为两个不同的方向:MUC方法(例如:AutoSolg [1], LIEP [2], PALKA [3], HASTEN [4], and CRYSTAL [5]),和后MUC方式(例如: WHISK [6], RAPIER [7], SRV [8], WIEN [9], SoftMealy [10] and STALKER [11])。

 

Hsu and Dung [10] 将包装器分为4类:用传统程序语言人工创建的包装器,特殊设计的包装器语言,基于启发式算法的包装器,和包装器归纳工具。Chang [12] 延续了这种分类方式,并以用户的观点从自动化程度的角度比较了不同的WI系统。他将IE工具分为4类,人工创建的,人工标注的,非标注的,和半监督的系统。

  
RISE(用于IE任务的在线资源库)网站的维护者Muslea根据输入文档的类型与抽取模式的结构将IE工具分为3类[11].第一类工具用来抽取自由文本,其抽取模式是基于语义或句法约束的。第二类被称为包装器归纳系统,它抽取的对象是诸如HTML页面的在线文档,依靠基于分界符的抽取规则。最后一类也作用于在线文档,但是抽取模式同时包括分界符与语义或句法约束。

 

Kushmerick将众多IE工具分为两大类:有限状态式的与关系学习式的[13]。有限状态式的抽取规则从形式上等同于正则语言或自动机,如WIEN, SoftMealy和 STALKER。而关系学习式的抽取规则本质上是类人工智能的逻辑程序,如SRV, Crystal, WebFoot [14], Rapier 和 Pinocchio [15]。

 

Laender提出了按照生成包装器的技术手段进行分类的方法,包括包装器归纳语言[16](例如 Minerva [17], TSIMMIS [18] 和 WebOQL [19]),以HTML为中间件的工具(e.g., W4F [20], XWrap [21] 和RoadRunner [22]),基于自然语言处理的工具(e.g., WHISK, RAPIER 和 SRV),包装器归纳工具(例 WIEN, SoftMealy and STALKER),基于模型的工具(例NoDoSE [23] 和 DEByE [24],[25]),基于本体的工具(例 BYU[26])。Laender通过下面7个特征来比较这些工具:自动化程度,对复杂对象的支持,页面内容,是否包含用户界面,是否支持非HTML数据源,弹性(resilience),和适应性。

 

Sarawagi根据抽取任务的种类将HTML包装器分为3类[27]。第一种是记录级的包装器,利用规律寻找记录间的分隔符,然后从一个页面的列表中抽取同类记录。第二种是页面级的包装器,从多种记录中提取元素。最后一种是站点级的包装器,将同一个网站的页面填入数据库。

 

Kuhlins 与 Tredwell 将用于生成包装器的库分为两个基本类型,商用的与非商用的[28]。他们也从其他特征来进行对比:如输出方法,接口类型,网页抓取能力和用户界面支持。

本文从三方面来评估IE系统。第一个方面由以下几点:Muslea的关于自由文本抽取和在线文档抽取的分类,Sarawagi的3级按任务类型的抽取分类,和对非HTML文档的支持程度。这方面主要涉及IE任务的困难程度和工作域。第二个方面是关于IE系统的基本技术手段,包括正则表达式和类人工智能逻辑规则,与确定的有限状态置换器或隐马尔可夫模型等。最后一个方面是关于程序的自动化程度,包括相关程序员的类别,是否需要训练,和是否需要标注等。这三个方面将在下一节讨论。