From Word Embeddings To Document Distances
来源:互联网 发布:淘宝信誉提升 编辑:程序博客网 时间:2024/05/01 09:11
论文提出了一个新的计算文本文档距离的方法:Word Mover’s Distance(WMD)。本文的工作也是基于词向量,从句子的局部共现中学习语义上有意义的词的表示。WMD距离将两个文本文档的不同描述为一篇文档中嵌入的词“travel”到达另一个文档中嵌入的词所需的最小距离量。这个距离矩阵可以看作Earth Mover’s Distance(图像中一个计算距离的算法)的特例,并且这个矩阵没有超参数,是straight-forword的。
最常见的两种文档表示方法是BOW和TF-IDF,但这种特征不适合文档距离计算,因为经常出现near-orthogonality。另一个缺点是这种表示不能抓住独立词的距离。比如“Obama speaks to the media in Inlinois”和”The President greets the press in Chicago”。尽管这些句子没有相同的词,但它们传达几乎相同的信息,这是BOW不能表示的。
也有很多方法通过学习文档的隐低维表示来避免这个问题,LSI特征分解BOW特征空间,LDA概率上将相似的词划分到topics,将文档表示为topics上的分布。同时,也有很多BOW/TF-IDF的变种。尽管这些方法产生一个比BOW更coherent的文档表示,但它们往往不能提高在基于距离的任务上BOW的性能。
本篇论文提出的WMD利用word2vec的特性,将文本文档表示为一个weighted point cloud of embedded words。两个文档A和B之间的距离定义为A中所有的词移动精确匹配到文档B中点云的最小累积距离。WMD中的优化问题就是well-studied Earth Mover距离传输问题的特殊情况,因此,可以利用已有的方法解决。
WMD
词之间距离:c(i,j) =
文档距离度量:d和d’分别是两篇文档的nBOW表征,d中的词可以转换到d’,转换矩阵是T。
从d到d’的传输问题:
query
去除了停用词,留下president,greets,press和Chicago。从图中可以看出,将Illinois转换成Chicago比从Japan转换成Chicago代价低,这是因为word2vec将vec(Illinois)放置更靠近vec(Chicago),而不是vec(Japan)。
结果
比较了7种文本表示baselines,包括BOW,TFIDF,LDA,LSI等,WMD表现是最好的。
参考
- 论文地址:http://jmlr.org/proceedings/papers/v37/kusnerb15.pdf
- From Word Embeddings To Document Distances
- From Word Embeddings To Document Distances
- word embeddings for text
- Topical Word Embeddings
- Codeforces803B Distances to Zero
- Distances to Zero
- Distances to Zero
- Distances to Zero
- NLP:单词嵌入Word Embeddings
- 【论文阅读】Topical Word Embeddings
- 803B Distances to Zero
- Distances to Zero 【二分枚举】
- Export a Word Document to XML
- PDF To Word Document 2.0.3
- Recurrent Neural Networks with Word Embeddings¶
- Read numbering string from word document via VBA in Excel
- Extracting Table Data from Word Document using Aspose Words
- Educational Codeforces Round 20 Distances to Zero
- leetcode解题之 Combination Sum java 版(组合求和)
- Docker下centos6 + mha全记录
- SpringMVC和Mybatis的整合
- 简单读取dataSource.properties配置文件
- 动态规划粗浅理解及LCS思路
- From Word Embeddings To Document Distances
- 一维数组的移动
- git 客户端解决冲突文件
- Failed to read candidate component class: file [F:\eclipse neon\.metadata\.plugins\org.eclipse.wst.s
- Find All Numbers Disappeared in an Array
- 六、简单查询、条件查询、排序
- 对fork()函数的初步认识
- 【taotao】图片服务器的搭建
- xdctf-pwn200