读论文《Efficient Estimation of Word Representations in Vector Space》

来源：互联网发布：王者荣耀显示网络异常编辑：程序博客网时间：2024/06/06 13:59

读论文《Efficient Estimation of Word Representations in Vector Space》

原文地址：http://blog.csdn.net/qq_31456593/article/details/77513173

introduce

词的分布式表示（又称词嵌入，word embedding）因为这篇文章开始大火，原来的word embedding只是神经网络语言模型的副产物，而该论文的主要的目标是训练具有语义特征的word embedding。

本文体提出了2个模型，一个是Continuous Bag-of-WordS Model(CBOW),一个是Continuous Skip-gram Model（Skip-gram）
其中CBOW是用上下文的词预测中间词，Skip-gram是用中间词预测上下文的词。

考虑到原来的神经语言模型算法复杂度高，训练时间长，本文的两个网络都去掉了非线性隐藏层，并在输出层使用哈夫曼树结构进行hierarchical softmax，使复杂度大大降低，一天的时间就可以训练16亿单词量的语料。且最终生成的词嵌入满足类似king-man+women=queen的语义关系。

method

论文的2个模型如下文所示

其中CBOW是最大化对w(t)的预测，Skip-gram是最大化对w(t-2),w(t-1),w(t+1),w(t+2)的预测之和。

由于没有隐藏层，所以2个网络都是线性模型

原文对于网络结构和优化函数介绍比较少，所以在这里就不展开，具体细节将在word2vec的博文中介绍

my view

1、由中心词预测上下词似乎是一个很好的思路，值得深挖。
2、没有隐藏层也能有这么好的效果，难道是把语义特征都让词向量学了？
3、没有非线性变化，是否不具更强的拟合能力？
4、文章实验表明词向量维度扩大2倍，比训练次数扩大3倍效果好，是因为维度高，语义丰富？
5、king-man+women=queen是否表明学到的语义空间接近于到人脑中的概念空间？

阅读全文

0 0