《实体解析与信息质量》 - 3.1.1 Fellegi-Sunter模型

来源:互联网 发布:ping的端口号是多少 编辑:程序博客网 时间:2024/04/30 23:12

Fellegi-Sunter模型

从历史上来看,政府人口普查、福利和税收统计计划是第一个解决实体解析问题的组织,他们开始尝试着汇总和总结大量的居民和企业信息。想要收集关于人口的精确数据,那么确定两条在不同的时间或者被不同机构所收集的数据记录是否为同一个实体就显得尤为的重要。1969年,在加拿大统计局工作的统计学家I.P.fellegi和A.B.Sunter出版了一篇论文,论文名为记录链接理论,这篇论文描述了实体解析的统计模型,即Fellegi-Sunter模型(FSM),这是第一个试图以一种严格的方式来描述记录链接的模型。

除了它的历史意义,这篇论文还给ER实践者提供了有用的指导,包括如何从一个完全确定性的匹配到概率性的匹配来扩展引用链接,以及提供了一种方法用于创建一组概率性匹配规则,这些规则不会超过给定的误报和漏报比率。然而FSM确实也存在着一些局限性,首先,它只处理直接匹配链接的引用,并没有考虑到任何其他的在第一章讨论到的三种链接方法。其次,它给在上下文中的两个引用的列表(文件)找到等价引用限定了框架,假设这两个列表没有等价引用,也就是等价引用贯穿于所有的列表,而不是在一个列表中,这种情况下就比较难找到等价引用。

确定性匹配和概率性匹配

确定性匹配是一种ER方法(Herzog, et al., 2007),当且仅当两个相应的属性对之间有完全相同的值,这个方法就会实现这两个引用链接。实际上,确定性匹配认为链接的引用其实是相互之间的一个精确副本,至少他们的标识属性值是相互的一个复制品。这个方法代表了记录链接的最基本的形成方式,也反映了重复记录这个术语的真实意义。

Fellegi和Sunter意识到了确定性匹配有太多限制,至少是在人口普查工作中,导致了太多的漏报率,也就是实际上应该被链接的引用却没有被链接。由于数据不一致,数据变化和常见的数据录入错误,许多等价引用对在他们的标识属性对上将不会产生相同的值。FSM提出了一个概念,将确定性匹配扩展为概率性匹配方法。概率性匹配通过允许一些对应的标识属性有不同的值来放宽了对确定性匹配的约束。例如,如果有几个标识属性对,这些属性对除了一个之外其他都有相同的值,那么仍然可能认为有足够的证据来决定这两个引用是等价的。在并不是所有的标识属性对都有相同值得情况下,决定是否链接可能不仅取决于有多少个属性对匹配还应该考虑是哪些属性对匹配的。

入学注册实例

通过一个简单的例子,我们可能会更好的理解FSM模型。假设公立学校在每个学年的开始,都会为每个年级需要登记的学生创建了一条记录。ER的目标是将登记文件中连续的两个年级在连续两年内的相同学生链接登记记录。ER链接方法是利用学生的姓,名和生日这些身份属性进行直接匹配。期望的结果是这些文件之间将会有相当大的重叠,因为大多数的学生都是在同一年登记的,只是升了一个年级。然而,还会出现这样一些情况,一些新学生正常进入入学第二年,但是另外一些学生在进入第二年之前就离开学校了。

图3.1显示了关于学生入学登记例子的一个概率性匹配模式的评估。水平横轴上的二进制数字是两个引用之间的身份属性匹配和不匹配的所有可能的组合的一个编码。这个编码中,值1意味着两个属性值都是存在的并且这两个值是相等的,而值0意味着两个属性中有一个没有值或者都没有值,或者两个属性值都存在但是不相等。对于有三个属性的引用,将会有八(2^3)种可能的组合。当组合中的第一位二进制数字为1时,意思就是两条登记记录中的姓这个属性的值是相等的,而值0按照前面的规则所示就意味着它们的属性值不相等或者没有值。同样的,第二位代表了名这个属性对匹配或者不匹配,而第三位代表了生日属性对的匹配或不匹配。例如,编码111代表了三个属性都完全一致,即确定性匹配的情况。

                                      图3.1 学生记录的真、假逻辑组合

简单来说,图3.1中的编码只有两个可能的情况(匹配和不匹配),但是正如先前在论文(Fellegi, Sunter, 1969)中提到的,Fellegi-Sunter模型允许一种更为复杂的编码,例如,编码之间的两个值是都是不同的或者两个值中有一个或两个都没有值。在一个字符串编码可能看起来像“BCA”的场景下,“B”表明第一对属性中其中一个值或两个值都不存在,”C”表明第二对属性的值是存在的但是值不相等,“A”表明第三对属性的值都存在并且相等。如果考虑匹配值的性质,如名字的匹配为两个常见的名字或者两个名字都有一个特殊的值如“JOHN”,编码还可能变得更加复杂。

图3.1中,纵轴代表的概率范围为0~1,在此标准上,每个二进制编码被划分为两个垂直的竖线,第一条竖线满足的模式是一对引用指向同一个学生的概率(等价引用)。第二条竖线满足的模式是一对引用不是指向同一个的学生的概率。综上所述,这两个措施表明不管是使用一个积极的还是消极的链接,使用模式都是有效的。考虑这两个概率是很重要的,因为第一章中ER的基本定律要求两个引用链接,并且只能引用相同的实体。还要注意的是,由于模式是互斥的,而且所有的模式都应包含在内,所以每组概率相加的和必须为1。

这两种概率和指标的精度相关,而且可以用来评估信息检索(IR)过程的有效性,如数据查询。考虑到所有可能在第一和第二年登记学生记录的集合,第一种概率(比例)代表能够找到相同学生(等价对)的属性对模式的概率,也就是,这种模式有能力找到等价记录。第二种概率代表非等价对满足的模式的概率,也就是,这种模式有能力通过链接来严格区分非等价对。ER经常会去权衡这两种约束关系。在匹配模式,或其他ER方法中,找到很多等价属性对是一件好事,只要没有太多的误报率。另一方面来说,太保守的只使用高精度的规则可能会导致一些等价对未被发现或未被链接,从而引起更高的误报率。FSM作为一种设计概率性匹配方案的指导模型,它不会超过每种错误类型所给定的阀值。在接下来的讨论中,最大可允许的false positive链接错误比率定义为μ,最大可允许的false negative链接错误最大可接受的比率定义为λ。

 μ和λ的背后理论优化依赖于为每个模式的概率做系统检测,如图3.1所示的。例如,考虑确定性模式111,即所有的属性对都相同的模式。等价记录满足这种模式的概率低于50%。这意味着如果决定只基于这种模式进行链接,只有不到一半的等价记录(true positives)得到链接,这使得剩下的等价记录都被标记为false negative错误。这个概率并不高的原因是假设这个例子中许多记录的生日属性都缺失值。因此至少一个记录对中有一个没生日这个值,所以许多同一个学生的记录对将不会被这种模式所找到。即使是同一个学生的三个身份属性值都被登记在了两条记录中,仍然可能出现三个属性对不完全匹配的概率。这种不匹配可以由多种原因引起,如数据录入错误,第一年登记时用了昵称而下一年却没有用,甚至可能出现学生更改名字的情况。从另一个角度来说,不同学生的两条登记记录的三个属性对都匹配的概率是相当小的,但并不等于概率为零。当然在一所比较大的学校里,这种情况是可能发生的,两个不同学生可能有着相同的生日,并且都用了比较普遍的名字。所以,在这个例子中,决定是否链接取决于大多数需求匹配模式(111)将如何为一些false positive错误作出贡献。

另一个例子是010模式,这种模式表明学生的姓氏是匹配的,但是名和生日不匹配。从链接的登记记录中可能会找到符合这种模式的一些等价对,譬如,一条记录有着与另一条记录相同的姓,名字却用的是昵称,另一条记录没有登记生日值。但是,即使在010模式下决定链接,能够找到一些等价对,而如果不同学生恰巧有着相同的姓,在这种情况下通过链接非等价对去创建false positives的风险是很高的。因此决定不去链接而使用该010模式是一个比较好的选择。

模式权重和链接规则

如果每个模式的概率如图3.1所示是已知的,那么基于概率匹配的最佳链接规则就能被定义出来。模式的概率可以通过测试样本对,利用已知的人口特征,或使用先前工作中建的值被评估出来。一旦这些概率确定了,每种模式被分配的权重取决于第一种概率到第二种概率的比率。权重比是一种结合两个概率值为一个单独数字的方法。有最高权重比的模式将最有可能决定链接,因为它们找到等价记录(分子)的概率最大,而创建false positive链接(分母)的可能性最小。相反的,低权重比的模式最好决定不去链接,它们可能会创建许多true negatives,而很少创建false negatives。这些比率可以在一个非常大到非常小的值的范围内,模式的权重可以定义为一个比率的对数。


计算完图3.1中所示模式概率的权重比率,结果按值降序排序如下:

       

图3.2和图3.1有着相同模式和概率,不同的是图上的模式根据上面的权重比率顺序做了从一个最高值到最低值的重新排序。

图3.2  按照权重排序的学生登记匹配模式

一个Fellegi-Sunter链接规则取决于如何选择Tμ和Tλ,这两个值定义范围如下:


接下来每个引用对是否决定链接取决于模式的权重,按如下规则所示:


按如上规则所示,满足图3.2中最左边一个模式的引用对(权重大于Tμ)总是能够链接(positive link),满足最右边模式的引用对(权重小于Tλ)都不能链接(positivenonlink)。该规则也允许模式自动决定能还是不能做匹配。权重值在Tμ~Tλ区间之间的引用对必须手动进行检查并得到可能正确的解决方案。图3.3说明了Tμ和Tλ是如何来限制从左至右累加的误报(false positive)错误和从右至左累加的漏报(false negative)错误的。

图3.3 通过规则分类的有序模式

上图中标记的原因是Tμ值的选择限制了做出正确链接决定的误报(falsepositive)错误率(μ),Tλ的选择限制了做出正确不链接决定的漏报(falsenegative)错误率(λ)。该规则的误报率(false positive rate)可以通过将满足权重大于Tμ的模式的误报率简单相加计算出来,而漏报率(falsenegative rate)可以通过通过将满足权重小于Tλ的模式的正确率(true positiverate)简单相加计算出来。因此,如果选择Tμ那么累加的误报率就小于μ,如果选择Tλ那么累加的漏报率就小于λ。这样的话链接规则就是最优的,因为它最大化了真正应该链接和不应链接的数量而没有超过给定的误差水平,同时还最小化了要求检查的链接数量,Fellegi和Sunter称之为记录链接的基本定律Fellegi, Sunter, 1969)。

自最初的出版以来,许多作者已经开始著作和出版关于改善FSM的论文。在美国统计局最著名的William Winkler曾经出版过expectation-maximization方法(Winkler, 1988)的应用程序,这个方法是用来调整缺乏条件独立性的属性(Winkler, 1989a),并实现了权重计算的自动化(Winkler, 1989b)。

权重比率计算

Herzog, Schuren, and Winkler (2007)给出了一个极好的关于FSM模型的阐述,包括了从对个人身份属性一致或不一致的概率估计中所计算出来的模式权重的方法。然而,这种技术的使用时基于假设该属性是条件独立的,也就是,一个身份属性的值一致或不一致的概率并不会影响到另外一个身份属性的一致或不一致。假设给出的属性都是条件独立的,那么模式权重计算方法为:

n = 属性的个数

mi = 与属性i一致的等价记录的概率

ui = 与属性i一致的非等价记录的概率


使用该计算公式,每种模式权重的计算结果可以通过将与个人属性相关的比率相加计算出来。以学生入学登记记录为例,模式为101,那么,可以通过下面的公式计算出权重结果:


属性值比较

图3.1所示的学生记录例子中,模式011表明属性名字的值不一致,而属性姓氏和生日的值都一致。但是,正如前面提到的,一个简单的二进制编码并没有指定这种不一致的本质。还可能是其中一个或两个姓氏的值都丢失了,更可能是它们只是因为拥有不同的值。然而,当两个值都存在的情况,可以有一定程度的差异。

考虑到接下来的三对名字的值可能会造成一定的不一致:(JAMES, DALE), (JAMES, JMAES), 和 (JAMES,JIM).第一对(JAMES, DALE)似乎证实了一个正确的不链接的决定,因为这两个名字似乎完全都不相关。从另一方面来说,另外两对(JAMES, JMAES), 和 (JAMES, JIM)从两个原因说明了属性的值不同仍然可能被认为是证实了一个正确的链接。在(JAMES, JMAES)这个例子中,这两个字符串是由相同的字母组成的,只是字母出现的顺序不一样,所以它们被认为是相似的。字符串“JMAES”并不认为是个有效的名字,但是它只需更换第二和第三个字母就可以被转换成一个有效的名字“JAMES”,这是一个常见的键盘录入错误。根据字符串组成和顺序来计算它们的差异性的算法被称为近似字符串匹配算法(ASM).如第一章中所讨论的,有许多不同的ASM算法,每一种算法在给出的ER应用中都有自己的优势和劣势(Navarro,2001)。

ASM和对身份属性的语义匹配都可以通过允许简单二进制协议/分歧模式提炼成一个广泛通用的模式来提高概率性匹配的性能。例如,前面例子中所讨论的入学率的另一种编码协议模式可以使用编码“E”来表示精确匹配,“A”表示模糊匹配,“S”表示语义匹配,“M”表示如果有一个或两个值是丢失的,“X”表示前面所有的条件都不满足。这种编码形式表示,引用链接满足概率模式“SEE”匹配的误报率很可能低于模式“XEE”。这种编码的额外的好处是允许我们更为清晰的表述某些情况,而且它同时又显著的增加了可以考虑的模式的数量。三个属性都有五种可能的编码,那么模式的数量将会从8增加到125。

术语“模糊匹配”有时也被用来描述概率性匹配。然而,这个术语的使用可能会引起歧义。在某些情况下,模糊匹配指的在属性层次上使用ASM算法或语义匹配算法。在另外一些情况下,它的使用和概率性匹配是一样的,如一些属性是允许近似字符串或语义匹配的情况下。总之,当使用ASM或语义匹配技术时,模糊这个词在某些意义上是存在一定的误导的,所以应该建立一个固定差异的限制。任何实现都必须简化为一个离散的编码规则的实现,这个规则明确的定义了什么是相似,例如,两个字符串之间的最短可允许的编辑距离。建立这些相似性阀值并没有一个指导方针,比较合理的建立方法是根据经验通过对目标人群的引用所提取的实验样本中建立出来,但是经常它们只是简单的通过直觉建立出来。

0 0
原创粉丝点击