读论文《Efficient Estimation of Word Representations in Vector Space》

来源:互联网 发布:王者荣耀显示网络异常 编辑:程序博客网 时间:2024/06/06 13:59

读论文《Efficient Estimation of Word Representations in Vector Space》


原文地址:http://blog.csdn.net/qq_31456593/article/details/77513173

introduce

词的分布式表示(又称词嵌入,word embedding)因为这篇文章开始大火,原来的word embedding只是神经网络语言模型的副产物,而该论文的主要的目标是训练具有语义特征的word embedding。

本文体提出了2个模型,一个是Continuous Bag-of-WordS Model(CBOW),一个是Continuous Skip-gram Model(Skip-gram)
其中CBOW是用上下文的词预测中间词,Skip-gram是用中间词预测上下文的词。

考虑到原来的神经语言模型算法复杂度高,训练时间长,本文的两个网络都去掉了非线性隐藏层,并在输出层使用哈夫曼树结构进行hierarchical softmax,使复杂度大大降低,一天的时间就可以训练16亿单词量的语料。且最终生成的词嵌入满足类似king-man+women=queen的语义关系。

method

论文的2个模型如下文所示


其中CBOW是最大化对w(t)的预测,Skip-gram是最大化对w(t-2),w(t-1),w(t+1),w(t+2)的预测之和。

由于没有隐藏层,所以2个网络都是线性模型

原文对于网络结构和优化函数介绍比较少,所以在这里就不展开,具体细节将在word2vec的博文中介绍

my view

1、由中心词预测上下词似乎是一个很好的思路,值得深挖。
2、没有隐藏层也能有这么好的效果,难道是把语义特征都让词向量学了?
3、没有非线性变化,是否不具更强的拟合能力?
4、文章实验表明词向量维度扩大2倍,比训练次数扩大3倍效果好,是因为维度高,语义丰富?
5、king-man+women=queen是否表明学到的语义空间接近于到人脑中的概念空间?

阅读全文
0 0
原创粉丝点击