A Survey of Web Information Extraction Systems——web信息抽取系统研究现状(一)

来源：互联网发布：标签打印程序源码编辑：程序博客网时间：2024/04/27 14:27

这一篇是信息抽取领域2006年比较权威的综述。其实本来翻译了2002年的一篇综述，那个字数比较少，不过一时蛋疼，把这个也搞了算了。

本人中文英文都很烂，这个基本上是google自动翻译的水准，为了造福与我双语一样烂的后人放在这里。有离谱的地方请“自主规制”。原文全文共18页，大概80000印刷符号，今天半夜翻译了2500汉字。

错误的地方请指出，转载请注明出处，谢谢。

A Survey of Web Information Extraction Systems

Chia-Hui Chang, Mohammed Kayed, Moheb Ramzy Girgis, Khaled Shaalan

web信息抽取系统研究现状译/Matrox

摘要

Internet为用户提供了大量格式化的信息，但这也为从不同的信息源中提取相关联的数据带来困难。因此，利用健壮、灵活的信息抽取（IE）系统将web页面转化为对程序友好的结构化数据（如：关系型数据库）愈发变得必要。尽管多种web信息抽取技术已经迅速发展，对这些技术的比较工作却很有限。遗憾的是，由于不同的抽取工具针对的任务不同，只有个别情况下它们得到的结果才能直接进行比较。本文考察了主流的web信息抽取方式，并从三个方面对他们进行比较：工作域，自动化程度，和技术手段。第一个判断标准揭示了为何IE系统不能处理一些特殊结构的网站。第二个从底层技术上对IE系统进行了分类。第三个标准度量了IE系统的自动化程度。我们认为这些判断准则可以定性的评估不同种类的信息抽取技术。

关键词——信息抽取，web挖掘，包装器，包装器归纳

1介绍

万维网的爆炸式发展带来了海量的信息来源。然而，由于网络信息来源的异质性，并缺乏结构，浏览与搜索这个巨大信息集合的方式却很有限。成熟的web挖掘系统，比如购物机器人，需要大量的人工维护来处理不同的数据格式。为了将网页转化为结构化数据，研究人员在信息抽取（IE）领域投入了大量的精力。与信息检索（IR）领域不同，后者只关心如何从文档集中辨别相关联的文档，而前者要从文档中提取结构化数据以备“后处理”，这对许多web挖掘应用和检索工具来说至关重要。

从形式上看，一项信息抽取任务是由它的输入内容和抽取目标决定的。输入内容可以是由自然语言（见图1）书写的文本，或是网上普遍的半结构化文档，比如表格或清单（见图2）。信息抽取的目标可以是一个关系K元组（K是记录的属性数目），或是具有复杂层次结构的数据对象。对于一些IE任务来说，记录的属性可能为空也可能具有多个实例。当多个属性的排列顺序有变化或者出现排版错误时，信息抽取任务的难度就会急剧升高。

信息抽取工具通常被称为提取器（extractor）或包装器（wrapper）。包装器起初指的是信息集成系统的一个组件，它为多个数据源提供了统一的查询接口。在信息集成系统中，一个包装器通常“封装”了一个信息源（如一个数据库服务器，或一个web服务器），这样信息集成系统可以访问信息源的同时不改变它的核心查询代码。当信息源是web服务器时，包装器通过HTTP协议收集页面，从HTML文档中提取信息，再与其他数据源整合。在这三个过程中，信息抽取得到了最多的关注，于是有时用包装器来指代整个信息抽取程序。总之，包装器与提取器这两个词均可用来描述信息抽取程序。

包装器归纳（WI）或信息抽取（IE）系统是用来生成包装器的工具。一个包装器通常匹配一个特定模式（如一个有限状态机），这个模式依赖于一个抽取规则集合。为了一个新的需求定制的WI系统规模各不相同，这取决于所抽取的文本类型，任务域，和情景（scenario）。为了增强复用性并减少维护的工作量，设计可训练的WI系统已经成为一些研究领域的重要课题，如信息理解、机器学习、数据挖掘等等。本文中所指的信息抽取任务与传统的信息抽取工作有很大的不同，后者的目标仅是从无结构文本中提取数据，而前者要处理半结构化的网络文档，并且通常是在服务器端自动运行。因此，传统的信息抽取工作主要利用自然语言处理技术，如词典、语法等来开发句法模式，而web信息抽取则使用机器学习、模式挖掘等技术找出基于模板的文档的结构。

本文仅探讨应用于web的半结构化文档的抽取工作。我们将用三个自定义的标准来比较流行的WI系统。本文结构组织如下。第2节介绍WI系统分类的相关工作，其中简述了用于评估WI系统的三个指标。第3节详细介绍了每个评测标准。第4节概述了现在流行的IE工具，并通过一个可执行的样例来方便理解。第5节从三个方面比较分析了前述的IE工具。第6节给出结论。

2.相关研究

近年来许多技术被应用于信息抽取中，如机器学习，模式识别等。它们的自动化程度各不相同。本节中我们主要概述了前人所提出的IE工具分类方法。

信息理解会议(MUCs)促进了早期IE技术的发展。文本的信息抽取主要包含五方面的工作，包括命名实体识别，共指消解，模板元素创建，模板关系创建，和情节模板生成等。MUCs对于IE领域的意义在于其促使研究人员将IE技术分为两个不同的方向：MUC方法（例如：AutoSolg [1], LIEP [2], PALKA [3], HASTEN [4], and CRYSTAL [5]），和后MUC方式（例如： WHISK [6], RAPIER [7], SRV [8], WIEN [9], SoftMealy [10] and STALKER [11])。

Hsu and Dung [10] 将包装器分为4类：用传统程序语言人工创建的包装器，特殊设计的包装器语言，基于启发式算法的包装器，和包装器归纳工具。Chang [12] 延续了这种分类方式，并以用户的观点从自动化程度的角度比较了不同的WI系统。他将IE工具分为4类，人工创建的，人工标注的，非标注的，和半监督的系统。

RISE（用于IE任务的在线资源库）网站的维护者Muslea根据输入文档的类型与抽取模式的结构将IE工具分为3类[11].第一类工具用来抽取自由文本，其抽取模式是基于语义或句法约束的。第二类被称为包装器归纳系统，它抽取的对象是诸如HTML页面的在线文档，依靠基于分界符的抽取规则。最后一类也作用于在线文档，但是抽取模式同时包括分界符与语义或句法约束。

Kushmerick将众多IE工具分为两大类：有限状态式的与关系学习式的[13]。有限状态式的抽取规则从形式上等同于正则语言或自动机，如WIEN, SoftMealy和 STALKER。而关系学习式的抽取规则本质上是类人工智能的逻辑程序，如SRV, Crystal, WebFoot [14], Rapier 和 Pinocchio [15]。

Laender提出了按照生成包装器的技术手段进行分类的方法，包括包装器归纳语言[16](例如 Minerva [17], TSIMMIS [18] 和 WebOQL [19])，以HTML为中间件的工具(e.g., W4F [20], XWrap [21] 和RoadRunner [22])，基于自然语言处理的工具(e.g., WHISK, RAPIER 和 SRV)，包装器归纳工具（例 WIEN, SoftMealy and STALKER），基于模型的工具（例NoDoSE [23] 和 DEByE [24],[25]），基于本体的工具（例 BYU[26]）。Laender通过下面7个特征来比较这些工具：自动化程度，对复杂对象的支持，页面内容，是否包含用户界面，是否支持非HTML数据源，弹性（resilience），和适应性。

Sarawagi根据抽取任务的种类将HTML包装器分为3类[27]。第一种是记录级的包装器，利用规律寻找记录间的分隔符，然后从一个页面的列表中抽取同类记录。第二种是页面级的包装器，从多种记录中提取元素。最后一种是站点级的包装器，将同一个网站的页面填入数据库。

Kuhlins 与 Tredwell 将用于生成包装器的库分为两个基本类型，商用的与非商用的[28]。他们也从其他特征来进行对比：如输出方法，接口类型，网页抓取能力和用户界面支持。

本文从三方面来评估IE系统。第一个方面由以下几点：Muslea的关于自由文本抽取和在线文档抽取的分类，Sarawagi的3级按任务类型的抽取分类，和对非HTML文档的支持程度。这方面主要涉及IE任务的困难程度和工作域。第二个方面是关于IE系统的基本技术手段，包括正则表达式和类人工智能逻辑规则，与确定的有限状态置换器或隐马尔可夫模型等。最后一个方面是关于程序的自动化程度，包括相关程序员的类别，是否需要训练，和是否需要标注等。这三个方面将在下一节讨论。