Distributed Representations of Words and Phrasesand their Compositionality

来源：互联网发布：西北师大知行学院贴吧编辑：程序博客网时间：2024/04/30 15:01

https://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf“>翻译论文
最近提出的连续Skip-gram模型是一个有效的方法，用来学习高质量的分布式向量表示，它能够捕获大量的准确的单词间语义和句法关系。在这篇文章中，我们呈现一些扩展，它既能提高向量的质量，而且能提高训练速度；通过频繁词抽样，我们获得重要的加速和学习得到更有规律的词向量表示。我们称the hierarchical softmax样本选择过程为负采样；
词向量表示的一个内在的限制是无视单词间的顺序，而且没有能力去表示习语。例如，Candace和Air的意义不能够简单的结合来获得“Air Canada”；受这个例子的启发，我们呈现的一个方法用来发现文本中的短语，发现学习成千上万的短语的好的向量表示是可能的；
介绍
在一个向量空间对单词进行分布式向量表示，能够通过分组相似单词，在自然语言处理任务中能够帮助学习算法获得更好的表现；最早的使用词向量追溯至1986.这个想法在统计语言模型被应用，并取得很大的成功；接下来的工作包括自动语音识别和机器翻译，和其他更多的NLP应用；
最近，Mikolov et al介绍了skip- gram模型，一个高效的从大量的非结构化文本数据中学习高质量的单词向量表示的方法；不同于之前的学习词向量的神经网络框架，训练Skip-gram模型不涉及复杂的矩阵乘法；这使得训练很有效，一个优化的单机实现能够一天训练超过100billion个单词；
使用神经网络计算单词表示是很令人感兴趣的，因为学习得到的向量明确的包括了许多语言规则和类型；有些令人惊奇的是，很多这些模式能够表示为线性翻译；例如，向量计算vec“madrid”-vec(“Spain”)+vec(“france”) 更接近于vec(“paris “);
在这片文章中，我们展示对原始的Skip- gram模型的一些扩展，我们展示在训练过程中的频繁词的抽样导致了明显的加速；而且，我们呈现了一个噪声对比估计的简单的变体，用于训练Skip -gram模型，导致更快的训练和频繁词更好的向量表示，相比于在之前工作中使用的更复杂的hierarchical softmax ；
单词向量表示被限制于不能够表示不是由单个单词组成的习语，例如，“Boston Globe ”是一个报纸，它不是两个单词语义的自然结合。因此，使用向量来表示整个短语使得Skip -gram模型更加富有表现力，其他的通过组合词向量来表示句子语义的技术，例如递归自编码，会更有益于短语向量而不是词向量；
从单词的扩展
首先，我们使用数据驱动的方法识别出大量的习语，之后，我们在训练过程中，把这些习语视为不可分割的整体；

0 0