CBOW

来源：互联网发布：象牙社区一样的软件编辑：程序博客网时间：2024/04/29 06:16

本文简述了以下内容：

神经概率语言模型NPLM，训练语言模型并同时得到词表示

word2vec：CBOW / Skip-gram，直接以得到词表示为目标的模型

（一）原始CBOW(Continuous Bag-of-Words)模型

（二）原始Skip-gram模型

（三）word analogy

神经概率语言模型NPLM

上篇文简单整理了一下不同视角下的词表示模型。近年来，word embedding可以说已经成为了各种神经网络方法（CNN、RNN乃至各种网络结构，深层也好不深也罢）处理NLP任务的标配。word embedding（词嵌入；词向量）是指基于神经网络来得到词向量的模型（如CBOW、Skip-gram等，几乎无一例外都是浅层的）所train出来的词的向量表示，这种向量表示被称为是分布式表示distributed representation，大概就是说单独看其中一维的话没什么含义，但是组合到一起的vector就表达了这个词的语义信息（粒度上看的话，不止词，字、句子乃至篇章都可以有分布式表示；而且，例如网络节点、知识图谱中的三元组等都可以有自己的embedding，各种“xx2vec”层出不穷）。这种基于神经网络的模型又被称作是基于预测（predict）的模型，超参数往往要多于基于计数（count）的模型，因此灵活性要强一些，超参数起到的作用可能并不逊于模型本身。尽管有一批paper去证明了这类神经网络得到词表示模型的本质其实就是矩阵分解，但这并不妨碍它们的广泛应用。

下面就简要介绍利用神经网络来得到词表示的非常早期的工作——神经概率语言模型（NPLM, Neural Probabilistic Language Model），通过训练语言模型，同时得到词表示。

语言模型是指一个词串 {wt}Tt=1=wT1=w1,w2,...,wT 是自然语言的概率 P(wT1) 。词wt的下标 t 表示其是词串中的第 t 个词。根据乘法公式，有

P (w 1, w 2, . . ., w T) = P (w 1) P (w 2 | w 1) P (w 3 | w 1, w 2) . . . P (w T | w 1, w 2, . . ., w T - 1)

因此要想计算出这个概率，那就要计算出 P(wt|w1,w2,...,wt−1),t∈{1,2,...,T} 。传统方式是利用频数估计：

P (w t | w 1, w 2, . . ., w t - 1) = count ( w 1 , w 2 , . . . , w t - 1 , w t ) count ( w 1 , w 2 , . . . , w t - 1 )

count()是指词串在语料中出现的次数。暂且抛开数据稀疏（如果分子为零那么概率为零，这个零合理吗？如果分母为零，又怎么办？）不谈，如果词串的长度很长的话，这个计算会非常费时。n-gram模型是一种近似策略，作了一个 n−1 阶马尔可夫假设：认为目标词 wt的条件概率只与其之前的 n−1 个词有关：

P (w t | w 1, w 2, . . ., w t - 1) \approx P (w t | w t - (n - 1), w t - (n - 2), . . ., w t - 1) = count ( w t - ( n - 1 ) , w t - ( n - 2 ) , . . . , w t - 1 , w t ) count ( w t - ( n - 1 ) , w t - ( n - 2 ) , . . . , w t - 1 )

神经概率语言模型NPLM延续了n-gram的假设：认为目标词 wt 的条件概率与其之前的 n−1 个词有关。但其在计算 P(wt|w1,w2,...,wt−1) 时，则使用的是机器学习的套路，而不使用上面count()的方式。那么它是如何在训练语言模型的同时又得到了词表示的呢？

图片来源：[1]，加了几个符号

设训练语料为 D ，提取出的词表为 V={w1−,w2−,...,w|V|−−−} 。词 wi− 的下标 i− 表示其是词表中的第 i 个词，区别于不带下划线的下标。大致说来，NPLM将语料中的一个词串 wtt−(n−1) 的目标词 wt 之前的 n−1 个词的词向量（即word embedding，设维度为 m ）按顺序首尾拼接得到一个“长”的列向量 x ，作为输入层（也就是说共 (n−1)m 个神经元）。然后经过权重矩阵 Hh×(n−1)m 来到隐层（神经元数为 h ），并用tanh函数激活。之后再经过权重矩阵 U|V|×h 来到输出层（神经元数当然为 |V| ），并使用softmax()将其归一化为概率。另外存在一个从输入层直连输出层的权重矩阵 W|V|×(n−1)m 。所以网络的输出如下（隐层和输出层加了偏置）：

z = U tanh (H x + d) + b + W x

y^i - = P (w i - | w t - (n - 1), w t - (n - 2), . . ., w t - 1) = softmax (z i -) = exp z i - \sum k = 1 | V | exp z k -, w i - \in V

y^i− 表示目标词是词表中第 i 个词 wi− 的概率。

expzi− 表示前 n−1 个词对词表中第 i 个词 wi− 的能量聚集。

词表中的每个词的词向量都存在一个矩阵 C 中，look-up操作就是从矩阵中取出需要的词向量。由此可以看出，NPLM模型和传统神经网络的区别在于，传统神经网络需要学习的参数是权重和偏置；而NPLM模型除了需要学习权重和偏置外，还需要对输入（也就是词向量）进行学习。

那么，模型的参数就有：C,U,H,W,b,d 。

使用交叉熵损失函数，模型对目标词 wt 的损失为

L = - log y^t = - log P (w t | w t - (n - 1), w t - (n - 2), . . ., w t - 1) = - log softmax (z t)

那么模型的经验风险为（省略了常系数）

L = - \sum w t t - (n - 1) \in D log y^t = - \sum w t t - (n - 1) \in D log P (w t | w t - (n - 1), w t - (n - 2), . . ., w t - 1) = - \sum w t t - (n - 1) \in D log softmax (z t)

所以接下来就可以使用梯度下降等方法来迭代求取参数了。这样便同时训练了语言模型和词向量。

word2vec：CBOW / Skip-gram

上面介绍的NPLM以训练语言模型为目标，同时得到了词表示。2013年的开源工具包word2vec则包含了CBOW和Skip-gram这两个直接以得到词向量为目标的模型。

像SGNS这些新兴的获得embedding的模型其实不属于字面含义上的“深度”学习，因为这些模型本身都是很浅层的神经网络。但得到它们后，通常会作为输入各种神经网络结构的初始值（也就是预训练，而不采用随机初始化），并随网络参数一起迭代更新进行fine-tuning。就我做过的实验来说，预训练做初始值时通常可以提升任务上的效果，而且fine-tuning也是必要的，不要直接用初始值而不更新了。

首先它获取word embedding（Distributed representation）的方式是无监督的，只需要语料本身，而不需要任何标注信息，训练时所使用的监督信息并不来自外部标注；但之前的pLSA什么的也是无监督的啊，也是稠密向量表示啊。所以我觉得word2vec之所以引爆了DL在NLP中的应用更可能是因为它在语义方面的一些优良性质，比如相似度方面和词类比（word analogy）现象，便于神经网络从它开始继续去提取一些high level的东西，进而去完成复杂的任务。

这里先介绍两种模型的没有加速策略的原始形式（也就是输出层是softmax的那种。对于Skip-gram模型，作者在paper中称之为“impractical”），两种加速策略将在下篇文中介绍。

与NPLM不同，在CBOW / Skip-gram模型中，目标词 wt 是一个词串中间的词而不是最后一个词，其拥有的上下文（context）为前后各 m 个词：wt−m,...,wt−1,wt+1,...,wt+m 。NPLM基于n-gram，相当于目标词只有上文。后文中，“目标词”和“中心词”是同一概念，“周围词”和“上下文”是同一概念。

在原始的CBOW / Skip-gram模型中，任一个词 wi− 将得到两个word embedding（设维度为 n ）：作为中心词时的词向量，也称为输出词向量 vi−∈Rn×1 ；以及作为周围词时的词向量，也称为输入词向量 ui−∈Rn×1 。词向量的下标和词的下标相对应，比如说目标词 wt 的词向量就对应为 vt 和 ut 。

与NPLM类似，词表中每个词的词向量都存在一个矩阵中。由于存在两套词向量，因此就有两个矩阵：输入词矩阵 Vn×|V|=[v1−,...,v|V|−−−] ，其每一列都是一个词作为周围词时的词向量；输出词矩阵 U|V|×n=[u⊤1−;...;u⊤|V|−−−] ，其每一行都是一个词作为中心词时的词向量。比如说若想取出词作为周围词时的词向量，只要知道词在词表中的编号即可，取出的操作相当于用输入词矩阵乘以词的one-hot representation。

（一）CBOW(Continuous Bag-of-Words)

不带加速的CBOW模型是一个两层结构，相比于NPLM来说CBOW模型没有隐层，通过上下文来预测中心词，并且抛弃了词序信息——

输入层：n 个节点，上下文共 2m 个词的词向量的平均值；

输入层到输出层的连接边：输出词矩阵 U|V|×n ；

输出层：|V| 个节点。第 i 个节点代表中心词是词 wi− 的概率。

如果要视作三层结构的话，可以认为——

输入层：2m×|V|个节点，上下文共 2m 个词的one-hot representation

输入层到投影层到连接边：输入词矩阵 Vn×|V| ；

投影层：：n 个节点，上下文共 2m 个词的词向量的平均值；

投影层到输出层的连接边：输出词矩阵 U|V|×n ；

输出层：|V| 个节点。第 i 个节点代表中心词是词 wi− 的概率。

这样表述相对清楚，将one-hot到word embedding那一步描述了出来。这里的投影层并没有做任何的非线性激活操作，直接就是Softmax层。换句话说，如果只看投影层到输出层的话，其实就是个Softmax回归模型，但标记信息是词串中心词，而不是外部标注。

图片来源：[5]，把记号都改成和本文一致

首先，将中心词 wt 的上下文 ct ：wt−m,...,wt−1,wt+1,...,wt+m 由one-hot representation（ xt+j ）转为输入词向量（ vt+j ）：

v t + j = V x t + j, j \in {- m, . . ., m} ∖ {0}

进而将上下文的输入词向量 vt−m,...,vt−1,vt+1,...,vt+m 求平均值，作为模型输入：

v^t=12m∑jvt+j,j∈{−m,...,m}∖{0}v^t=12m∑jvt+j,j∈{−m,...,m}∖{0}

这一步叫投影（projection）。可以看出，CBOW像词袋模型(BoW)一样抛弃了词序信息，然后窗口在语料上滑动，就成了连续词袋= =。丢掉词序看起来不太好，不过开个玩笑的话：“研表究明，汉字的序顺并不定一能影阅响读，事证实明了当你看这完句话之后才发字现都乱是的”。

与NPLM不同，CBOW模型没有隐藏层，投影之后就用softmax()输出目标词是某个词的概率，进而减少了计算时间：

z = U v^t

y^i - = P (w i - | w t - m, . . ., w t - 1, w t + 1, . . ., w t + m) = softmax (z i -) = softmax (u ⊤ i - v^t), w i - \in V

那么模型的参数就是两个词向量矩阵：U,V 。

对于中心词 wt ，模型对它的损失为

L = - log y^t = - log P (w t | w t - m, . . ., w t - 1, w t + 1, . . ., w t + m) = - log softmax (z t) = - log exp ( u ⊤ t v ^ t ) \sum | V | k = 1 exp ( u ⊤ k - v ^ t ) = - u ⊤ t v^t + log \sum k = 1 | V | exp (u ⊤ k - v^t) = - z t + log \sum k = 1 | V | exp z k -

所以模型的经验风险为

L = - \sum w t + m t - m \in D log y t^= - \sum w t + m t - m \in D log P (w t | w t - m, . . ., w t - 1, w t + 1, . . ., w t + m) = - \sum w t + m t - m \in D log softmax (z t)

做文本的各位同好应该都知道fastText，它相比于CBOW有两个比较重要的区别：首先，fastText是一个端到端的分类器，用全部窗口词取平均去预测文档的标签，而不是预测窗口中心词；另外一个，是它引入了局部词序，也就是 n-gram 特征，所以train出来的词向量和word2vec有一些不一样的特点。因为Hierarchical Softmax还有其他的trick，它的速度快到难以置信，而且精度并不低，没用过fastText的各位可以跑下实验感受一下。

下面开始是非常无聊的求导练习。。。

如果用SGD来更新参数的话，只需求出模型对一个样本的损失的梯度。也就是说上式的求和号可以没有，直接对 L 求梯度，来更新参数。

I. 首先是对输出词矩阵 U⊤=[u1−,...,u|V|−−−] ：

这部分和Softmax回归模型的梯度推导过程是一样一样的。有很多种方法，下面介绍最按部就班的方法。

因为 zi−=u⊤i−v^t ，所以 ∂L∂ui−=∂zi−∂ui−∂L∂zi−=v^t∂L∂zi− （这里的 ∂L∂zi− 其实就是BP算法中的 δ ），那么先求 ∂L∂zi− ：

(1) 对 ∀wi−∈V∖{wt} ，有 yi−=0，那么

\partial L \partial z i - = \partial ( - z t + log \sum k = 1 | V | exp z k - ) \partial z i = 0 + \partial \sum | V | k = 1 exp z k - \partial z i - \sum k = 1 | V | exp z k - = exp z i - \sum k = 1 | V | exp z k - = y^i - = y^i - - y i -

(2) 对 wi−=wt ，有 yi−=1，那么

\partial L \partial z i - = \partial L \partial z t = - 1 + y^t = y^i - - y i -

可见两种情形的结果是统一的，就是误差项。

因此有

\partial L \partial u i - = (y^i - - y i -) v^t, w i - \in V

那么对于词表中的任一个词 wi− ，其输出词向量的更新迭代式为：

u i - = u i - - α (y^i - - y i -) v^t, w i - \in V

不妨把它们拼接成对矩阵的梯度：

\partial L \partial U ⊤ = [\partial L \partial u 1 -, . . ., \partial L \partial u | V | - - -] = v^t (y^- y) ⊤

U ⊤ = U ⊤ - α v^t (y^- y) ⊤

II. 接下来是对输入词矩阵 V=[v1−,...,v|V|−−−] ：

因为 v^t=12m∑jvt+j ，所以 ∂L∂vt+j=∂v^t∂vt+j∂L∂v^t=12mI∂L∂v^t，那么求 ∂L∂v^t ：

\partial L \partial v ^ t = \sum k = 1 | V | \partial L \partial z k - \partial z k - \partial v ^ t = \sum k = 1 | V | (y^k - - y k -) u k - = [u 1 -, . . ., u | V | - - -] ⎛ ⎝ ⎜ ⎜ ⎜ y^1 - - y 1 - ⋮ y^| V | - - - - y | V | - - - ⎞ ⎠ ⎟ ⎟ ⎟ = U ⊤ (y^- y)

因此有

∂L∂vt+j=12mU⊤(y^−y),j∈{−m,...,m}∖{0}∂L∂vt+j=12mU⊤(y^−y),j∈{−m,...,m}∖{0}

那么对于中心词 wt 的上下文的任一个词 wt+j ，其输入词向量的更新迭代式为：

vt+j=vt+j−12mαU⊤(y^−y),j∈{−m,...,m}∖{0}vt+j=vt+j−12mαU⊤(y^−y),j∈{−m,...,m}∖{0}

（二）Skip-gram

不带加速的Skip-gram模型其实和CBOW模型很相似，二者都是用上下文来预测中心词。二者的区别在于，CBOW模型把上下文的 2m 个词向量求平均值“揉”成了一个向量 v^t 然后作为输入，进而预测中心词；而Skip-gram模型则是把上下文的 2m 个词向量 vt+j 依次作为输入，然后预测中心词。

Skip-gram模型中，对于中心词 wt ，模型对它的损失为

L = - log P (w t | w t - m, . . ., w t - 1, w t + 1, . . ., w t + m) = - log \prod j P (w t | w t + j) = - log \prod j y^(j) t = - log \prod j softmax (z^(j) t) = - \sum j log exp ( u ⊤ t v t + j ) \sum k = 1 | V | exp ( u ⊤ k - v t + j )

第二个等号是独立性假设。后面的求梯度过程也是类似的。

下篇博文将简述两种从计算上加速的策略。

观众朋友们可能会问，实验呢？我觉得word embedding的实验还是要结合具体任务，毕竟它通常是作为初始值的。我做实验时都是用gensim包来train词向量，现在TF也有例子，我没对比过。现在感受就是：用pre-train的话比随机初始化要好；fine-tuning做了比不做要好。基本上都属于说了跟没说一样……关于各个超参数的取值，首先我习惯用SGNS（Skip-gram搭配负采样加速），然后诸如维数、窗口大小、最低词频、二次采样的设置等等都要根据语料的实际情况：维数的话，如果不是机器翻译这种特别大的任务一般200以内就够；窗口大小，如果是推特这样的短文本那就不能取太大。调这些参数的trick在网上也有一些其它的博客在写，这里只是笼统的写一点。另外，各个我之前的pre-train都用的是word2vec的，没用过GloVe，如果语料足够大就用语料训练，如果语料不大就用中文维基百科。以后可能会尝试对比一下GloVe做pre-train。

另外我个人有个疑惑，关于word2vec的改进应该有不少paper，如果它们是有效的，为什么没有被写进gensim这样的工具包呢？

（三）word analogy

word analogy是一种有趣的现象，可以作为评估词向量的质量的一项任务。

图片来源：[6]

word analogy是指训练出的word embedding可以通过加减法操作，来对应某种关系。比如说左图中，有 w(king)−w(queen)≈w(man)−w(woman) 。那么评测时，则是已知这个式子，给出king、queen和man三个词，看与 w(king)−w(queen)+w(woman) 最接近的是否是 w(woman) 。右图则表示，word analogy现象不只存在于语义相似，也存在于语法相似。

参考：

[1] A Neural Probabilistic Language Model, LMLR2003

[2] Efficient Estimation of Word Representations in Vector Space, ICLR2013

[3] CS224d Lecture Notes1

[4] (PhD thesis)基于神经网络的词和文档语义向量表示方法研究

[5] word2vec Parameter Learning Explained

[6] Linguistic Regularities in Continuous Space Word Representations, NAACL2013

[7] Comparison of FastText and Word2Vec

对于原创博文：如需转载请注明出处http://www.cnblogs.com/Determined22/

阅读全文

0 0