word2vector：NPLM、CBOW、Skip-gram

来源：互联网发布：淘宝规则2016 编辑：程序博客网时间：2024/05/17 06:56

主要参考：

http://www.cnblogs.com/Determined22/p/5804455.html

http://www.cnblogs.com/Determined22/p/5807362.html

http://blog.csdn.net/u014595019/article/details/51943428

http://www.open-open.com/lib/view/open1426578842601.html

还是先给出总结：

神经概率语言模型NPLM，训练语言模型并同时得到词表示

word2vec：CBOW / Skip-gram，直接以得到词表示为目标的模型。

CBOW(Continuous Bag-of-Words)，用周围词预测中心词：

Skip-gram，用中心词预测周围词：

[干货]神经网络语言模型详解

原始的CBOW / Skip-gram模型虽然去掉了NPLM中的隐藏层从而减少了耗时，但由于输出层仍然是softmax()，所以实际上依然“impractical”。

两种加速策略，一种是Hierarchical Softmax，另一种是Negative Sampling。

http://www.cnblogs.com/Determined22/p/5804455.html

神经概率语言模型NPLM

近年来，基于神经网络来得到词表示的模型备受青睐。这类模型所得到的词的向量表示是分布式表示distributed representation，通常被称为word embedding（词嵌入；词向量）。这种基于预测（predict）的模型的超参数往往要多于基于计数（count）的模型，因此灵活性要强一些。下面就简要介绍利用神经网络来得到词表示的开山之作——神经概率语言模型（NPLM, Neural Probabilistic Language Model），通过训练语言模型，同时得到词表示。

语言模型是指一个词串 {wt}Tt=1=wT1=w1,w2,...,wT 是自然语言的概率 P(wT1)。词wt的下标 t 表示其是词串中的第 t 个词。根据乘法公式，有

P (w 1, w 2, . . ., w T) = P (w 1) P (w 2 | w 1) P (w 3 | w 1, w 2) . . . P (w T | w 1, w 2, . . ., w T - 1)

因此要想计算出这个概率，那就要计算出 P(wt|w1,w2,...,wt−1),t∈{1,2,...,T} ：

P (w t | w 1, w 2, . . ., w t - 1) = count ( w 1 , w 2 , . . . , w t - 1 , w t ) count ( w 1 , w 2 , . . . , w t - 1 )

count()是指词串在语料中出现的次数。暂且抛开数据稀疏（如果分子为零那么概率为零，这个零合理吗？如果分母为零，又怎么办？）不谈，如果词串的长度很长的话，这个计算会非常费时。n-gram模型是一种近似策略，作了一个马尔可夫假设：认为目标词 wt 的条件概率只与其之前的 n−1 个词有关：

P (w t | w 1, w 2, . . ., w t - 1) \approx P (w t | w t - (n - 1), w t - (n - 2), . . ., w t - 1) = count ( w t - ( n - 1 ) , w t - ( n - 2 ) , . . . , w t - 1 , w t ) count ( w t - ( n - 1 ) , w t - ( n - 2 ) , . . . , w t - 1 )

神经概率语言模型NPLM延续了n-gram的假设：认为目标词 wt 的条件概率与其之前的 n−1 个词有关。但其在计算 P(wt|w1,w2,...,wt−1) 时，则使用的是机器学习的套路，而不使用上面count()的方式。那么它是如何在训练语言模型的同时又得到了词表示的呢？

图片来源：参考资料[1]，加了几个符号

设训练语料为 D ，提取出的词表为 V={w1−,w2−,...,w|V|−−−} 。词 wi− 的下标 i− 表示其是词表中的第 i 个词，区别于不带下划线的下标。大致说来，NPLM将语料中的一个词串 wtt−(n−1) 的目标词 wt 之前的 n−1 个词的词向量（即word embedding，设维度为 m ）按顺序首尾拼接得到一个“长”的列向量 x ，作为输入层（也就是说共 (n−1)m 个神经元）。然后经过权重矩阵 Hh×(n−1)m 来到隐层（神经元数为 h ），并用tanh函数激活。之后再经过权重矩阵 U|V|×h 来到输出层（神经元数当然为 |V| ），并使用softmax()将其归一化为概率。另外存在一个从输入层直连输出层的权重矩阵 W|V|×(n−1)m 。所以网络的输出如下（隐层和输出层加了偏置）：

z = U tanh (H x + d) + b + W x

y^i - = P (w i - | w t - (n - 1), w t - (n - 2), . . ., w t - 1) = softmax (z i -) = exp z i - \sum k = 1 | V | exp z k -, w i - \in V

y^i− 表示目标词是词表中第 i 个词 wi− 的概率。

expzi− 表示前 n−1 个词对词表中第 i 个词 wi− 的能量聚集。

词表中的每个词的词向量都存在一个矩阵 C 中，look-up操作就是从矩阵中取出需要的词向量。由此可以看出，NPLM模型和传统神经网络的区别在于，传统神经网络需要学习的参数是权重和偏置；而NPLM模型除了需要学习权重和偏置外，还需要对输入（也就是词向量）进行学习。

那么，模型的参数就有：C,U,H,W,b,d 。

对于目标词 wt ，模型对它的损失为（使用对数损失函数时，经验风险最小化等价于极大似然估计；在本处，对数损失是交叉熵损失的一种特殊情况）

J = - log y^t = - log P (w t | w t - (n - 1), w t - (n - 2), . . ., w t - 1) = - log softmax (z t)

那么模型的经验风险为（省略了常系数）

J = - \sum w t t - (n - 1) \in D log y^t = - \sum w t t - (n - 1) \in D log P (w t | w t - (n - 1), w t - (n - 2), . . ., w t - 1) = - \sum w t t - (n - 1) \in D log softmax (z t)

所以接下来就可以使用梯度下降等方法来迭代求取参数了。这样便同时训练了语言模型和词向量。

word2vec：CBOW / Skip-gram

上面介绍的NPLM以训练语言模型为目标，同时得到了词表示。2013年的开源工具包word2vec则包含了CBOW和Skip-gram这两个直接以得到词向量为目标的模型。

这里先介绍两种模型的没有加速策略的原始形式（也就是输出层是softmax的那种。对于Skip-gram模型，作者在paper中称之为“impractical”），两种加速策略将在下篇文中介绍。

与NPLM不同，在CBOW / Skip-gram模型中，目标词 wt 是一个词串中间的词而不是最后一个词，其拥有的上下文（context）为前后各 m 个词：wt−m,...,wt−1,wt+1,...,wt+m 。NPLM基于n-gram，相当于目标词只有上文。后文中，“目标词”和“中心词”是同一概念，“周围词”和“上下文”是同一概念。

在CBOW / Skip-gram模型中，任一个词 wi− 将得到两个word embedding（设维度为 n）：作为中心词时的词向量，也称为输出词向量 vi−∈Rn×1 ；以及作为周围词时的词向量，也称为输入词向量 ui−∈Rn×1 。词向量的下标和词的下标相对应，比如说目标词 wt 的词向量就对应为 vt 和 ut 。

与NPLM类似，词表中每个词的词向量都存在一个矩阵中。由于存在两套词向量，因此就有两个矩阵：输入词矩阵 Vn×|V|=[v1−,...,v|V|−−−] ，其每一列都是一个词作为周围词时的词向量；输出词矩阵 U|V|×n=[u⊤1−;...;u⊤|V|−−−] ，其每一行都是一个词作为中心词时的词向量。比如说若想取出词作为周围词时的词向量，只要知道词在词表中的编号即可，取出的操作相当于用输入词矩阵乘以词的one-hot representation。

（一）CBOW(Continuous Bag-of-Words)

不带加速的CBOW模型是一个两层结构，通过上下文来预测中心词——

输入层：n 个节点，上下文共 2m 个词的词向量的平均值；

输入层到输出层的连接边：输出词矩阵 U|V|×n ；

输出层：|V| 个节点。第 i 个节点代表中心词是词 wi− 的概率。

如果要“看做”三层结构的话，可以认为——

输入层：2m×|V|个节点，上下文共 2m 个词的one-hot representation

输入层到投影层到连接边：输入词矩阵 Vn×|V| ；

投影层：：n 个节点，上下文共 2m 个词的词向量的平均值；

投影层到输出层的连接边：输出词矩阵 U|V|×n ；

输出层：|V| 个节点。第 i 个节点代表中心词是词 wi− 的概率。

这样表述相对清楚，将one-hot到word embedding那一步描述了出来。但个人认为投影层不宜称为“隐层”，因为我觉得隐层可能往往有加非线性的意思，而这里没有。

图片来源：参考资料[5]，把记号都改成和本文一致

首先，将中心词 wt 的上下文 ct ：wt−m,...,wt−1,wt+1,...,wt+m 由one-hot representation（ xt+j ）转为输入词向量（ vt+j ）：

v t + j = V x t + j, j \in {- m, . . ., m} ∖ {0}

进而将上下文的输入词向量 vt−m,...,vt−1,vt+1,...,vt+m 求平均值，作为模型输入：

v^t=12m∑jvt+j,j∈{−m,...,m}∖{0}v^t=12m∑jvt+j,j∈{−m,...,m}∖{0}

这一步叫投影（projection）。可以看出，CBOW像词袋模型(BOW)一样抛弃了词序信息。丢掉词序看起来不太好，不过开个玩笑的话：“研表究明，汉字的序顺并不定一能影阅响读，事证实明了当你看这完句话之后才发字现都乱是的”。

与NPLM不同，CBOW模型没有隐藏层，投影之后就用softmax()输出目标词是某个词的概率，进而减少了计算时间：

z = U v^t

y^i - = P (w i - | w t - m, . . ., w t - 1, w t + 1, . . ., w t + m) = softmax (z i -) = softmax (u ⊤ i - v^t), w i - \in V

那么模型的参数就是两个词向量矩阵：U,V 。

对于中心词 wt ，模型对它的损失为

J = - log y^t = - log P (w t | w t - m, . . ., w t - 1, w t + 1, . . ., w t + m) = - log softmax (z t) = - log exp ( u ⊤ t v ^ t ) \sum | V | k = 1 exp ( u ⊤ k - v ^ t ) = - u ⊤ t v^t + log \sum k = 1 | V | exp (u ⊤ k - v^t) = - z t + log \sum k = 1 | V | exp z k -

所以模型的经验风险为

J = - \sum w t + m t - m \in D log y t^= - \sum w t + m t - m \in D log P (w t | w t - m, . . ., w t - 1, w t + 1, . . ., w t + m) = - \sum w t + m t - m \in D log softmax (z t)

下面开始是非常无聊的求导练习。。。

如果用SGD来更新参数的话，只需求出模型对一个样本的损失的梯度。也就是说上式的求和号可以没有，直接对 J 求梯度，来更新参数。

I. 首先是对输出词矩阵 U⊤=[u1−,...,u|V|−−−] ：

因为 zi−=u⊤i−v^t ，所以 ∂J∂ui−=∂zi−∂ui−∂J∂zi−=v^t∂J∂zi− （这里的 ∂J∂zi− 有点像BP算法中的 δ ），那么先求 ∂J∂zi− ：

(1) 对 ∀wi−∈V∖{wt} ，有 yi−=0，那么

\partial J \partial z i - = \partial ( - z t + log \sum | V | k = 1 exp z k - ) \partial z i = 0 + \partial \sum | V | k = 1 exp z k - \partial z i - \sum k = 1 | V | exp z k - = exp z i - \sum k = 1 | V | exp z k - = y^i - = y^i - - y i -

(2) 对 wi−=wt ，有 yi−=1，那么

\partial J \partial z i - = \partial J \partial z t = - 1 + y^t = y^i - - y i -

可见两种情形的结果是统一的。

因此有

\partial J \partial u i - = (y^i - - y i -) v^t, w i - \in V

那么对于词表中的任一个词 wi− ，其输出词向量的更新迭代式为：

u i - = u i - - α (y i -^- y i -) v^t, w i - \in V

从整体上看，有

\partial J \partial U ⊤ = [\partial J \partial u 1 -, . . ., \partial J \partial u | V | - - -] = v^t (y^- y) ⊤

U ⊤ = U ⊤ - α v^t (y^- y) ⊤

II. 接下来是对输入词矩阵 V=[v1−,...,v|V|−−−] ：

因为 v^t=12m∑jvt+j ，所以 ∂J∂vt+j=∂v^t∂vt+j∂J∂v^t=12mI∂J∂v^t，那么求 ∂J∂v^t ：

\partial J \partial v ^ t = \sum k = 1 | V | \partial J \partial z k - \partial z k - \partial v ^ t = \sum k = 1 | V | (y^k - - y k -) u k - = [u 1 -, . . ., u | V | - - -] ⎛ ⎝ ⎜ ⎜ ⎜ y^1 - - y 1 - ⋮ y^| V | - - - - y | V | - - - ⎞ ⎠ ⎟ ⎟ ⎟ = U ⊤ (y^- y)

因此有

∂J∂vt+j=12mU⊤(y^−y),j∈{−m,...,m}∖{0}∂J∂vt+j=12mU⊤(y^−y),j∈{−m,...,m}∖{0}

那么对于中心词 wt 的上下文的任一个词 wt+j ，其输入词向量的更新迭代式为：

vt+j=vt+j−12mαU⊤(y^−y),j∈{−m,...,m}∖{0}

（三）word analogy

word analogy是一种有趣的现象，可以作为评估词向量的质量的一项任务。

图片来源：参考资料[6]

word analogy是指训练出的word embedding可以通过加减法操作，来对应某种关系。比如说左图中，有 w(king)−w(queen)≈w(man)−w(woman) 。那么评测时，则是已知这个式子，给出king、queen和man三个词，看与 w(king)−w(queen)+w(woman) 最接近的是否是 w(woman) 。右图则表示，word analogy现象不只存在于语义相似，也存在于语法相似。

http://www.cnblogs.com/Determined22/p/5807362.html

CBOW / Skip-gram模型的加速策略（一）：Hierarchical Softmax

拿原始模型来说，计算 y^ 的一个分量 yi−^=P(wi−|wt−m,...,wt−1,wt+1,...,wt+m)=softmax(zi−) 时，由于使用的是softmax()函数，时间复杂度为 O(|V|) ，因此计算代价很大，对大规模的训练语料来说，非常impractical。

Hierarchical Softmax是一种对输出层进行优化的策略，输出层从原始模型的利用softmax计算概率值改为了利用Huffman树计算概率值。

以词表中的全部词作为叶子节点，词频作为节点的权，构建Huffman树，作为输出。Huffman树是二叉树，在叶子节点及叶子节点的权给定的情况下，该树的带权路径长度最短（一个节点的带权路径长度指根节点到该节点的路径长度乘以该节点的权，树的带权路径长度指全部叶子节点的带权路径长度之和）。直观上可以看出，叶子节点的权越大，则该叶子节点就应该离根节点越近。因此对于模型来说就是，词频越高的词，距离根节点就越近。

从根节点出发，到达指定叶子节点的路径是唯一的。Hierarchical Softmax正是利用这条路径来计算指定词的概率，而非用softmax来计算。

图片来源：参考资料[2]，记号改成和本文一致

上图是一个已根据词频构建好的Huffman树，各叶子节点代表词表中的各个词，非叶子节点共 |V|−1 个。以词 w2− 为例，从根节点到该叶子节点的路径长度 L(w2−)=4 ，各个节点依次被记为 n(w2−,1) 、n(w2−,2) 、n(w2−,3) 和 n(w2−,L(w2−)) 。对于每个非叶子节点 n(w,j) ，虽然不是词表中的词，但也引入所谓的“输出词向量” un(w,j) ，是需要学习的参数，为什么要引入它？下面讲述。

从根节点出发，走到指定叶子节点 w 的过程，就是一个进行 L(w)−1 次二分类的过程：路径上的每个非叶子节点都拥有两个孩子节点，从当前节点 n(w,j) 向下走时共有两种选择，走到左孩子节点 ch(n(w,j)) 就定义为分类到了正类，走到右孩子节点就定义为分类到了负类。

以CBOW模型为例，即输入层是 v^t 。用二项Logistic回归模型对每一次分类过程建模：从当前节点 n(w,j) 走到下一节点，那么走到左孩子节点的概率为

σ (u ⊤ n (w, j) v^t)

走到右孩子节点的概率为

1 - σ (u ⊤ n (w, j) v^t) = σ (- u ⊤ n (w, j) v^t)

将上面两个式子统一起来，那就是

（双线括号的意思是，当括号内为真则输出1，为假则输出0。）

现在计算输出词为 w 的概率：这对应于一条从根节点 n(w,1) 走到叶子节点 n(w,L(w)) 的路径，概率计算式为下式：

平均时间复杂度为 O(log|V|) ，相比于使用softmax()函数有很大提高。

对于Skip-gram模型，表达式类似：

可以证明，这样计算的结果满足概率和为1：

\sum i = 1 | V | P (w i - | w t - m, . . ., w t - 1, w t + 1, . . ., w t + m) = 1

模型对语料中的全部词串计算概率值做连乘得到似然函数，再取对数得到对数似然 L，进而用极大似然估计来求取参数。使用SGD更新参数（求取梯度时，由于是SGD，所以 L 的求和号可以去掉）。易知在Hierarchical Softmax的情况下每个词只会得到一个词表示（输入词向量）。梯度求取比较简单，参考资料[3]写的非常详细并给出了参数更新过程的伪代码（Skip-gram部分写反了，应改为“各个周围词预测中心词再做连乘”，而非“中心词预测各个周围词再做连乘”）。

CBOW / Skip-gram模型的加速策略（二）：Negative Sampling

第二种加速策略是Negative Sampling（NEG，负采样），这是Noise-Contrastive Estimation（NCE，噪声对比估计）的简化版本：把语料中的一个词串的中心词替换为别的词，构造语料 D 中不存在的词串作为负样本。因此在这种策略下，优化目标变为了：最大化正样本的概率，同时最小化负样本的概率。对于一个词串 (w,c) （ c 表示 w 的上下文），用二项Logistic回归模型对其是正样本的概率建模：

P (D = 1 | w, c) = σ (u ⊤ (w) v (c))

所以全部正样本的似然函数为

\prod (w, c) \in D P (D = 1 | w, c)

同理，全部负样本的似然函数为

\prod (w, c) \notin D P (D = 1 | w, c)

需要最大化前者同时最小化后者，也就是最大化下式：

\prod (w, c) \in D P (D = 1 | w, c) \prod (w, c) \notin D (1 - P (D = 1 | w, c))

取对数得到对数似然：

L = = = log (\prod (w, c) \in D P (D = 1 | w, c) \prod (w, c) \notin D (1 - P (D = 1 | w, c))) log (\prod (w, c) \in D σ (u ⊤ (w) v (c)) \prod (w, c) \notin D σ (- u ⊤ (w) v (c))) \sum (w, c) \in D log σ (u ⊤ (w) v (c)) + \sum (w, c) \notin D log σ (- u ⊤ (w) v (c))

由于使用SGD，所以只需要知道对一个正样本 (w,c) 的目标函数。式中 NEG(w) 指 (w,c) 的负样本的中心词集合：

L = log σ (u ⊤ (w) v (c)) + \sum w - \in N E G (w) log σ (- u ⊤ (w -) v (c))

求梯度的过程依旧可以参照参考资料[3]。

行文仓促，后面有机会再修正。

0 0