From Word Embeddings To Document Distances

来源:互联网 发布:淘宝信誉提升 编辑:程序博客网 时间:2024/05/01 09:11

论文提出了一个新的计算文本文档距离的方法:Word Mover’s Distance(WMD)。本文的工作也是基于词向量,从句子的局部共现中学习语义上有意义的词的表示。WMD距离将两个文本文档的不同描述为一篇文档中嵌入的词“travel”到达另一个文档中嵌入的词所需的最小距离量。这个距离矩阵可以看作Earth Mover’s Distance(图像中一个计算距离的算法)的特例,并且这个矩阵没有超参数,是straight-forword的。

最常见的两种文档表示方法是BOW和TF-IDF,但这种特征不适合文档距离计算,因为经常出现near-orthogonality。另一个缺点是这种表示不能抓住独立词的距离。比如“Obama speaks to the media in Inlinois”和”The President greets the press in Chicago”。尽管这些句子没有相同的词,但它们传达几乎相同的信息,这是BOW不能表示的。

也有很多方法通过学习文档的隐低维表示来避免这个问题,LSI特征分解BOW特征空间,LDA概率上将相似的词划分到topics,将文档表示为topics上的分布。同时,也有很多BOW/TF-IDF的变种。尽管这些方法产生一个比BOW更coherent的文档表示,但它们往往不能提高在基于距离的任务上BOW的性能。

本篇论文提出的WMD利用word2vec的特性,将文本文档表示为一个weighted point cloud of embedded words。两个文档A和B之间的距离定义为A中所有的词移动精确匹配到文档B中点云的最小累积距离。WMD中的优化问题就是well-studied Earth Mover距离传输问题的特殊情况,因此,可以利用已有的方法解决。

WMD

词之间距离:c(i,j) =x_{i}x_{j}2
文档距离度量:d和d’分别是两篇文档的nBOW表征,d中的词可以转换到d’,转换矩阵是T。
从d到d’的传输问题:
这里写图片描述
queryD0和两个句子D1,D2之间的WMD度量如下:
这里写图片描述
去除了停用词,留下president,greets,press和Chicago。从图中可以看出,将Illinois转换成Chicago比从Japan转换成Chicago代价低,这是因为word2vec将vec(Illinois)放置更靠近vec(Chicago),而不是vec(Japan)。

结果

比较了7种文本表示baselines,包括BOW,TFIDF,LDA,LSI等,WMD表现是最好的。

参考

  • 论文地址:http://jmlr.org/proceedings/papers/v37/kusnerb15.pdf
0 0