【9月20日】 Improved Pattern Learning for Bootstrapped Entity Extraction（上）

来源：互联网发布：比利牛斯山的城堡知乎编辑：程序博客网时间：2024/06/05 17:54

摘要

通过设立种子词，自举模式学习（bootstrapped pattern learning）可以从未标签化的文本中进行模式和实体的迭代学习。标签化数据的缺乏，会导致极性识别的困难（正向或者负向？）。通过扩展的分布式概率以及编辑距离，本文基于无监督学习的特征识别方法对特定领域以及一般文本进行特征提取。实验数据来自于医疗行业，对其中的drug-and-treatment信息进行抽取。

1.引言

虽然基于机器学习的实体提取在学术研究中很常见，但商业领域中仍让是基于规则的提取技术占据主导地位。一个主要的原因是因为，“规则”往往是有效的、可解释的且便于维护的（即使是非专家也可以进行应对出现的错误）。在某些领域中，也确实有证据表明基于规则的识别会比机器学习取得更好的效果（不过我认为只是暂时的）。此外，建立一套大规模有监督机器学习的语料需要花费巨大的时间和精力（进行标引等工作）。指导机器学习规则可以有效提升实体识别的效率。
基于自举规则的实体学习系统，通过种子词典或者种子模式进行弱监督数据标引。规则用于识别围绕实体周围的“模式”，如lexico-syntactic surface word patterns 和 dependency tree patterns。“模式”用于识别更多的正面实体和更少的负面实体。识别效果较好的（top x）模式被用于发现更多的实体，而这些实体又可以用于继续发现更好的模式。在有监督的设定中，模式的好坏可以由训练集的识别效果进行衡量。现有的自举系统，在存在未标引数据的情况下，对未标引的数据，要么是忽视，要么是假定其为负面实体。然而，这样的系统并不能很好的区分正向实体或者负向实体。这个问题如何信息提取系统的封闭世界假设一样，认为所有的“未知“都是负面的。
预测未标识数据的标签可以提升模式的效果。

Seed dictionary for class “animals”:{dog}

Text:
I own a cat named Fluffy. I run with my pet dog .I also nap with my pet cat. I own a car.
Pattern 1 :my pet X
positive:{dog}, unlabeled:{cat}
Pattern 2 :own a X
postive :{dag}, unlabeled:{car}
如上，现有的系统会认为模式一和模式二的识别效果相同。实际上，如果以词的意思的相似性作为特征的话，cat和dog更为接近，模式一的效果要好于模式二。
本文使用种子集合和为标注数据集合建立自举实体提取模型。通过模式抽取正向实体的数量以及抽取的正向实体和负向实体的比例对模式进行打分，作为模式优化的根据。在本文中，所有未标注的数据的是负面实体的默认概率由distributional similaruty , string edit distance,and TF-IDF计算出。

2.相关工作

基于规则的学习多年来一直引起着科研工作者的兴趣。主要区别在于如何创建规则，对规则的效果如何度量，以及如何利用这些规则进行实体打分。
在有监督的学习方法中如SRV（Freitag， 1998），SLIPPER(Cohen and Singer, 1999),(LR)^2(Ciravegna, 2001)和RAPIER(Califf and Mooney, 1999)都是全标注语料创建规则以及对规则进行打分。
Rilloff(1996)使用一些已经标注的实体作为种子，进行自举的实体学习，并且通过识别正想实体的准确率来衡量规则的“好坏”。Thelen & Riloff将上述的方法进一步扩展，提出了多类别识别规则。Yangarber等人以及Lin等人结合准确程度和自信程度对多类别实体识别模式进行评判，其中准确程度衡量未被标引的实体而自信程度衡量标引错误的实体（正向实体被标引成负向）。Gupta & Manning使用所有抽取的实体中的正确率衡量规则的优劣。上述实验均未使用为被标引的数据对规则（模式）进行识别。本文将在此进行突破。Stevenson & Greenwood(2005)使用Wordnet来创建模式，但是其对覆盖率较差，如对医疗领域的数据。
最近，面向网页信息的开放信息抽取系统发展引人注目。但是同样的问题，网页中对于未标准的数据，还是忽视或者是标为负向实体。
另外一些开放的网页信息抽取系统如ReVerb(Fader, 2011) and OLLIE(Mausam, 2012)主要致力于研究更为一般化的，不依赖领域的网页信息抽取。本文的作者尝试使用ReVerb进行实体抽取，但效果并不理想。Poon & Domingos（2010）：在开放的信息抽取系统并不适于较小的语料。
本文使用分布式相似度和编辑距离对模式进行打分。相似度以前主要用于实体识别，类别标引和消除噪声上，少用于此。

3.方法

在多类别识别任务中，本文以“种子”作为起点，通过lexico-syntactic surface word patterns在未标引的文本中进行实体抽取。便于描述，一下就在C类的实体抽取进行说明，且认为：所有C类下的实体为正向实体，所有非C类的实体为负向实体。按照以下步骤进行迭代，直到学习不到新的模式为止。

标引数据和创建模式：第一次迭代，通过类别字典进行数据标引。在正向实体中，基于其周围的文本创建类别C的候选模式。
对模式打分：基于一定的规则对所有的候选模式进行打分，选取top x。
实体识别：使用进入top的模式进行进一步的实体识别，抽取候选实体。选取top x 的实体加入类别C的列表。
上述模型的关键在于模式评分和实体评分的有效性。本文着重于提升模式评分的有效性。

3.2模式评分

在非全标注文本的情况下，进行模式评分具有一定的挑战性：1.可能会抽取正向实体的好的模式低分处理进；2.对抽取负向实体的坏的模式高分处理。现有的模式将所有为标注的实体默认为负向实体，可能会犯第一类错误；而将忽视所有未标注的实体两种错误皆有可能。本文对未标注文本进行更为精确的估计。
对于模式r，集合Pr,Nr和Ur分别表示模式r抽取的正向实体，负向实体以及未标注实体。

这里写图片描述

其中|.|表示集合的大小。函数score(e)表示e属于C的概率；如果e为一般词语，则score(e)的值就为0。否则，score(e)的值将由如下5个特征的平均值计算，所有特征的取值范围都是0~1：种子词典，learned entities for all labels，Google N-grams， and domain words using distributional similarity。
log|P(r)|设定是为了给识别出正向实体的模式更高的得分(Riloff, 1996)。候选模式基于ps(r)排名后选取top x进入模式列表。
计算 score(e)：基于无监督的学习方法，使用多个特征来判断为标引数据和正向实体以及负向实体。
一. 在非正式文本中，存在大量未标注的实体是正向实体的拼写错误或者形态错误形式。本文使用编辑距离以期待解决此问题；二.存在一些为标注的实体复词实体的子串形式，且未负向实体。例如，在“药名”类中，”asthma meds”(哮喘药)为正向实体，而”asthma disease”中的”asthma”为负向实体。为预测字典中子串的隶属程度，使用SemOdd(Gupta&Manning，2014a)；三.对于特定的领域而言，普遍出现的未标注实体很可能为负向实体；四.Google Ngrams(GN);五.以上特征都没有考虑实体的上下文信息，本文使用分布相似度(Distbeled);上述五项特征的具体定义如下：

正向实体的编辑距离(Edit distance from positive entities ,EDP):e和正向实体的编辑距离越小，其值就越接近1。
这里写图片描述
当c为真时，L(c)的值为1；否则为0。|p|表示p的长度，editDist(p, e)表示p和e的Damerau-Levenshtein距离(一种特殊的编辑距离计算方法)

负向实体编辑距离(EDN):和ENP相似,e和负向实体的编辑距离越小，EDN的值越接近1
这里写图片描述
3.Semantic odds ratio, SemOdd: 首先分别计算所有术语中正向实体和负向实体出现的频率（使用拉普拉斯平滑解决0概率问题，Laplace smoothing），并经过softmax（softmax function is a generalization of the logistic function that maps a length-p vector of real values to a length-K vector of values–wiki）函数进行标准化。所有候选模式抽取到的未标注实体均要计算该值，并使用min-max函数使其标准化[0,1]。 4.Google Naragm(GN):将e在数据集的频率和Goole Ngrams 中的频率进行缩放比较。缩放因子是为了平衡这两种频率，为数据集中词组的的数据和GN中所有词组数量的比值。该项特征同样以上述方法进行标准化。

分布式相似度(DistSim):在相同上下文中出现的词，具有较高的分布式相似度。对于未标注的实体，和正向实体同簇应该要比和负向实体同簇具有更高的得分。为了对这些簇进行打分，本文以簇的ID建立逻辑回归模型，并将簇的权重作为簇的得分。逻辑回归中，本文将所有标注实体视为正向实体，将所有负向实体以及未标准实体视为负向实体。此句存疑
SemOdd，GN以及DistSim，不在词表中赋值为0.为简化处理，本文对这些特征赋予相同的权重，并求出各项特征的均值(权重也可以根据根据在实验的过程中动态的调整优化，人工的或者使用机器学习算法，此为研究展望)。初步的研究表明，分类器在启发式标注的数据集中使用种子字典进行，存在大量的噪声，使得或者准确的权重值较为困难。本文猜测，可能也是收到封闭世界假设的影响，认为所有未标记的样本均为负向实体。
实体学习

本文使用学习模式抽取候选的实体。在去除数据集中的一般词语、负向实体和包含非字母的词之后，余下的词会赋予DisSim，SemOdd，EDO以及EDN的均值。此外，还加入以下特征：

模式的TF-IDF值(PTF)：对于实体e，计算公式为
这里写图片描述
其中，R表示所有抽取到e的模式集合，freq表示e在语料中的频率。实体的权重值和识别它的模式有关，识别该实体的模式权重越高，该实体为正向实体的可能性就越大。使用log进行频率的平滑（部分实体的频率值可能非常大）。该项特征值同样需要经过标准化处理。

N元实体的TF-IDF值(Domain N-gram TF-IDF, DN):此项特征在于给予特定领域出现的实体更高的权重。这点和使用TF-IDF进行关键词提取的思想一致。
在本文的实验研究中，发现GN以及DN特征的效果并不理想。
4 实验

4.1 数据集

本文从以下四种网上论坛(MedHelp)中抽取drug-and-treatment(DT)实体：1.Acne,2.Adult Type Two Diabetes(Disbetes),3.Ear Nosr & Throat(ENT), 4.Asthma.四种语料中的规模为：ENT包括215623个句子，Asthma含有39637个句子，Diatebes含有63355个句子，Acne含有65595个句子。将Asthma作为训练集。同Gupta和Manning类似，DT实体的定义为a pharmaceutical drug, or any treatment or intervention mentioned that may help a symptom or a condition.据此本文将surgeries,lifesytle changes, alternative treatment, home remedies, componment of daily care and management of disease作为正向实体；将symptoms and conditions (SC),medical specialists,body parts,and common temporal nouns作为负向实体。根据Gupta和Manning(2014a),使用DT(36091个词组)和SC(97211个词组)作为种子词典。关于body parts和temporal nouns的词的依据Wordnet。一般性词汇(common words)依据Twitter上常使用的词汇。

4.2 Baselines

在第三章中，集合Pr，Nr，和Ur分别表示模式r的正向实体，负向实体和未标注实体；Ar表示三个集合的并集。候选模式各项特征值依据3.3章的定义进行计算，本文主要关注对模式的打分，因此实验主要包含如下部分：

PNOdd：定义为|Pr|/|Nr|，该指标将忽视未标注实体；
PUNOdd：定义为|Pr|/(|Ur|+|Nr|),该指标将未标注实体视为负向实体；
RlogF:Rrlog|Pr|,其中Rr为|Pr|/|Ar|，该指标同样将未标注实体视为负向实体，记为RlogF-PUN；若Rr定义为|Pr|/(|Pr|+|Nr|),则是忽视未标注实体,记为RlogF-PN；
Yangarber02：acc(r)=|Pr|/|Nr|和con f(r)=(|Pr|/|Ar|)log|Pr|。对于acc(r)低于阈值的模式，将被遗弃；对剩下的模式使用con f(r)进行排序。本文实验过程中发现，将acc(r)的阈值定为0.8比较合适。
Lin03:和上述Yangarber02相似，定义为log|Pr|(|Pr|-|Nr|)/|Ar|。这就要求|Pr|>|Nr|,即提出抽取出的负向实体多余正向实体的模式。
SqrtRatioAll:该项指标的定义如下，
这里写图片描述

其中，freq(i)表示实体i被模式r抽取的次数。开平方同样是为了——————平滑。

4.3 实验

本文的实验数据来源于网络，存在着大量的不标准数据(拼写错误、形态错误等)。因此采用粗糙匹配–如果两个词的编辑距离为1且词的长度超过6，则认为匹配成功，并进行词形还原。
在创建模式的过程中，将左边或者右边包含1个或者2个停用词的模式遗弃。在每次迭代的过程中，选取ps(r)>=Q并且抽取最大的10个实体的得分>=0.2的前20个模式(最多选取)。Q的初始值为1.0，当模式不能抽取到更多的实体是，Q=Q*0.8。在实际过程中，将抽取到的实体数量低于2的模式直接遗弃。
为了计算分布相似度(DistSim)，通过布朗聚类算法(Brown,1992;Liang,2005)，将语料具成1000类。为了计算Domain Ngram得分，本文使用n-grams from all user forums in MedHelp as the domain n-grams。
和很多研究相似，系统的评估使用了准确率和召回率。如果系统的准确率低于75%，停止迭代；召回率难以直接计算，因为本文的数据是未标注文本，故使用precision-recall curves(AUC-PR)。
本文通过AUC-PR的值反应各项特征的有效性。由于本文的数据集来源于网络，存在着大量不规范词，EDP和DistSim的因子占比都较大。研究发现，移除GN和DistSim都会减少AUC-PR的值。

讨论

抽取错误的三个主要原因：1，某些错误不能通过编辑距离进行修正，如”konwwhere”;2.抽取出多数正向实体+部分负向实体的模式往往被赋予更多的得分，而一个未标注负向实体如果被一个得分较高的模式抽取，那么会导致这个模式进一步抽取更多的负向实体–PTF特征，实体权重和识别它的模式的权重有关，模式越高，其对应的实体的权重就越高，寻找更合适的特征去识别负向实体或者更标准的文档可以减少这种影响；3.自动的词典构造器可能会对一些实体进行错误的标引。减少字典的噪声可以有效提高准确率和召回率。
本文中，各项特征权重相等，这也是未来研究展望之一。在试验研究中发现，逻辑回归分类器在启发式标引中，对模式以及实体的打分情况都不理想。
本文研究的一个局限，由于多词实体的某些特征难以直接计算，故只研究了单个词的实体(分布式相似度聚类就只适用于单个词)；此外，本文也没有考虑到语义转移的情况。其他的研究展望例如，使用本文模式打分法识别其他的规则，如依赖模式；或者应用在其他的领域。

阅读全文

0 0