读《Computing Semantic Relatedness using Wikipedia-based Explicit Semantic Analysis》

来源:互联网 发布:电气二次接线软件 编辑:程序博客网 时间:2024/05/19 17:04


标题和摘要

        先对本文题目做一个翻译,按照文献惯有“基于……”的命名模式,可翻译为:基于维基百科显性语义分析法的语义相关度计算。本文是ESA的集大乘者Gab(Evgeniy Gabrilovich)和另一学者合作完成的一篇文献。这个题目看完后有个小疑问,因为之前看过的诸多文献,我形成了先入为主的观点,ESA本身就是研究语义相关的,或者说这个方法的流程以及最后的结果都是得到语义相关度。而这个标题却告诉我的是,ESA可认为是一个底层的方法,这里具体应用在语义相关度的计算中。

        摘要部分5句话对ESA的背景、ESA的基本原理、实现方法、评价方法、结果对比做了简要的概括。这里挑选有代表性的几句做一个翻译。

        1. 自然语言中语义相关性的计算依托于大量的常识以及专业领域内知识;

        2. ESA这种全新的方法,将文本的语义表征在一个从维基中抽取的高维概念空间中。

要解决的问题

        通篇看完后,发现本文的重点不是在计算语义相关度上面,要解决的问题恰恰是关于ESA这个方法本身,语义相关度计算只是在这里做一个比较的平台,把各种方法应用在这个具体的例子中,加以对比衬出ESA的可行和优势之处。在反观引言部分,这一点就更为清晰,因为在本文,作者要解决三个问题:

        1. 详细介绍ESA如何用维基中的自然概念表示自然语言文本的语义;

        2. 提出一种统一的方法,适用于单个词汇和任意长度文本;

        3. 评价本方法的结果有效性,对比证明ESA优于已有的方法。

相关工作

“老三对”

        先前的研究集中在三个方向:词包法、基于词典、潜在语义分析法。这三个方法基本都是同时会出现在很多文献中,我戏称为“老三对”。

语义相关度和语义相似度

        本文强调区别“语义相关度”和“语义相似度”

WikiRelated!

        WikiRelated!只考虑词汇出现在词条的标题中的情况,利用维基百科中的分类距离等宏观结构。ESA和WikiRelated!的三个主要区别在于。

“第三”部分——Explicit Semantic Analysis

        灵感来自于想将文本用大量的背景知识来表示。将文本用预先定义好的自然概念来表示,这些概念是经过加权的而且易于理解。一个很重要的优点就是利用了大量的百科中人自己编辑的知识。使用机器学习的方法来建立一个“语义解释器”,它能够将自然语言的文本片段影射到一个加权的wiki概念向量。这样的语义分析之所以称为“explicit",我们操作的概念是用户能够理解的。


        每个wiki概念用一个TFIDF概念表示,值表示一个词和这个概念的相关程度。为了加快速度,建立一个倒排索引。”语义解释器“是一个”centroid-based“分类器,也就是给定一个文本片段,需要将所有的wiki概念根据他们与片段的相关性进行排序。给定一个文档片段,首先也需要表示成一个TFIDF向量。然后查找这个向量,根据倒排找到相关的概念集合。然后通过一个将文本向量和第j个概念的向量进行点积的过程求得一个相关值。这样每个文本片段就可以用一个长度为N的向量表示,每个元素的值就表示和该文本片段的相关性。


        这个过程让我想起了信息检索的过程,也就是检索相关文档的过程,至少我看第一遍的时候是这样感觉的。只不过这里换成这个名字可能是因为检索出来的不再是文档,而是易于理解的概念了。


原创粉丝点击