From Word Embeddings To Document Distances

来源：互联网发布：淘宝信誉提升编辑：程序博客网时间：2024/05/01 09:11

论文提出了一个新的计算文本文档距离的方法：Word Mover’s Distance(WMD)。本文的工作也是基于词向量，从句子的局部共现中学习语义上有意义的词的表示。WMD距离将两个文本文档的不同描述为一篇文档中嵌入的词“travel”到达另一个文档中嵌入的词所需的最小距离量。这个距离矩阵可以看作Earth Mover’s Distance（图像中一个计算距离的算法）的特例，并且这个矩阵没有超参数，是straight-forword的。

最常见的两种文档表示方法是BOW和TF-IDF，但这种特征不适合文档距离计算，因为经常出现near-orthogonality。另一个缺点是这种表示不能抓住独立词的距离。比如“Obama speaks to the media in Inlinois”和”The President greets the press in Chicago”。尽管这些句子没有相同的词，但它们传达几乎相同的信息，这是BOW不能表示的。

也有很多方法通过学习文档的隐低维表示来避免这个问题，LSI特征分解BOW特征空间，LDA概率上将相似的词划分到topics，将文档表示为topics上的分布。同时，也有很多BOW/TF-IDF的变种。尽管这些方法产生一个比BOW更coherent的文档表示，但它们往往不能提高在基于距离的任务上BOW的性能。

本篇论文提出的WMD利用word2vec的特性，将文本文档表示为一个weighted point cloud of embedded words。两个文档A和B之间的距离定义为A中所有的词移动精确匹配到文档B中点云的最小累积距离。WMD中的优化问题就是well-studied Earth Mover距离传输问题的特殊情况，因此，可以利用已有的方法解决。

WMD

词之间距离：c(i,j) =∥x_{i}−x_{j}∥2
文档距离度量：d和d’分别是两篇文档的nBOW表征，d中的词可以转换到d’，转换矩阵是T。
从d到d’的传输问题：
这里写图片描述
queryD0和两个句子D1,D2之间的WMD度量如下：

去除了停用词，留下president，greets，press和Chicago。从图中可以看出，将Illinois转换成Chicago比从Japan转换成Chicago代价低，这是因为word2vec将vec(Illinois)放置更靠近vec(Chicago)，而不是vec(Japan)。

结果

比较了7种文本表示baselines，包括BOW，TFIDF，LDA，LSI等，WMD表现是最好的。

参考

论文地址：http://jmlr.org/proceedings/papers/v37/kusnerb15.pdf

0 0