欢迎使用CSDN-markdown编辑器

来源：互联网发布：韦德生涯数据更新编辑：程序博客网时间：2024/06/08 09:57

word2vec 核心简记

Huffman编码：

用词频作为词权重，构造 Huffman 树生成的 Huffman 编码，满足语料库总编码长度的期望最短。（频率高的编码短，频率低的编码长）
n-gram:

(n-1)阶Markov假设：词概率只与它前面 n-1 个词有关。复杂度 O(Nn)。需要平滑（类似 Bayes)
n=1即是 unigram

n-gram下词 wi 的上下文Context(wi)：
$C (w i) = (w i - n, \dots, w i - 1 ， w i + 1, \dots, w i + n)$
每个词的词向量：v(w)

概率模型及其对数似然函数：
$p (w | C (w))  = \sum w \in  log p (w | C (w))$
输入层：C(w)
投影层的构造：x(w)=∑w′∈C(w)v(w′)
输出层：
Huffman 树，叶子节点N(词个数）个，非叶子节点 N−1个。
从根节点向下找到词 w 的叶节点有唯一路径 j，到每一层 j 的结点（有一个权重θj)向下做二分裂，相当于做一次二分类σ(x(w)⋅θj)。向左为负类(tj+1=0)，右为正类(tj+1=1)。
最终找到词 w 的概率 P 及对数似然函数：
$p (w | C (w)) = \prod j = 1 \to w p (t j + 1 | x (w), θ j) = \prod j = 1 \to w σ (x (w) \cdot θ j) t j + 1 \cdot [1 - σ (x (w) \cdot θ j)] 1 - t j + 1  = \sum w log \prod j = 1 \to w p (t j + 1 | x (w), θ j) = \sum w \sum j = 1 \to w (t j + 1 log σ [x (w) \cdot θ j] + (1 - t j + 1) log (1 - σ [x (w) \cdot θ j]))$

t是与 w 有关的（每次找不同的 w)，θ只与结点有关，与词无关？

输入层：v(w)
输出层：
Huffman树。从顶层根结点向下找到每个 u∈C(w)。每个结点的二分裂与CBOW 类似。
概率模型及其对数似然函数：
$p (C (w) | w) = \prod u \in C (w) p (u | w) = \prod u \in C (w) \prod j = 1 \to u σ (v (w) \cdot θ j) t j + 1 \cdot [1 - σ (v (w) \cdot θ j)] 1 - t j + 1  = \sum w log \prod u \in C (w) p (u | w) \sum w \sum u \in C (w) \sum j = 1 \to u (t j + 1 log σ [v (w) \cdot θ j] + (1 - t j + 1) log (1 - σ [v (w) \cdot θ j]))$

用随机负采样替代 Huffman 树，提高效率。

对每一组样本 (w,C(W))，最大化 p(c(w)→w)，最小化 ∏u∈NEG(w)p(c(w)→u), 即最大化的单样本似然函数g(w)。及语料库D的总似然函数 ：

g (w) = p (w | C (w)) \prod u \in N E G (w) p (u | C (w)) = σ (x w \cdot θ w) \prod u \in N E G (w) [1 - σ (x w \cdot θ u)]  = \sum w \in  log g (w) = \sum w ⎡ ⎣ ⎢ ⎢ log σ (x w \cdot θ w) + \sum u \in N E G (w) log [1 - σ (x w \cdot θ u)] ⎤ ⎦ ⎥ ⎥

对每一组样本 (w,C(W))，?

阅读全文

0 0