Deep Learning（深度学习) 学习笔记（四）

来源：互联网发布：ubuntu命令行启动软件编辑：程序博客网时间：2024/05/17 01:30

神经概率语言模型，内容分为三块：问题，模型与准则，实验结果。[此节内容未完待续...]

1，语言模型问题

语言模型问题就是给定一个语言词典 $D=\{ w^{1},w^{2}, ...,w^{n}\}$ 包含v个单词，对一个字串 $W^{t}_{1}=w_{1}w{2}...w_{t}$ 做出二元判断，判断其是否符合该语言表达习惯。也就是 $Pr(W_{1}^{t})$ 的取值为0或者为1。

概率语言模型放松了对 $Pr(W_{1}^{t})$ 取值的限制，让其在0~1之间取值（语言模型 v.s 概率语言模型），并且所有的字串的概率之和为1。维基百科对于概率语言模型的解释为：是借由一个概率分布，而指派概率给字词所组成的字串。但是需要注意的是直接对 $Pr(W_{1}^{t})$ 进行求其概率分布是不现实的，因为理论上这种字串数量是无限的。直接求其概率分布会导致维度灾难。

为了解决问题，首先引入链式法则（chain rule），认为字串中第i个字符出现的概率是由其前面i-1个字符决定的。这样就有如下公式：

$Pr(W_{1}^{t})=\sum_{i=1}^{t}Pr(w_{i}|w_{1}w_{2}...w_{i-1})$

但是，有了这个公式还是太复杂了。继续引入假设简化公式，认为字串中第i个字符出现的概率是由其前面n-1个字符决定(也就是假设 $Pr(w_{i}|w_{1}...w_{i-1})=Pr(w_{i}|w_{i-n+1}...w_{i-1})$ )的。这样公式就继续被简化：

$Pr(W_{1}^{t})=\sum_{i=1}^{t}Pr(w_{i}|w_{i-n+1}...w_{i-1})$

模型现在就变得很简单了，就是计算条件概率 $Pr(w_{i}|w_{i-n+1}...w_{i-1})$ 。也就是需要计算给定字串 $w_{i-n+1}...w_{i-1}$ 后，字典中的每个字出现的概率 $Pr(w|w_{i-n+1}...w_{i-1})$ 。

2. 模型与准则

2.1 数据给定一些标记号的样本 $\{(w_{t-n+1}^{t-1},w_{t})\},n \leq t \leq T$ .

2.2 模型

图1. 模型图解

图片来自：http://licstar.net/archives/328

建模步骤

2.2.1 查表：将输入的单词 $w_{i}, t-n+1 \leq i \leq t-1$ ,通过查表（图1中Table look-up过程）将单词映射为m维的词向量。此处的所查的表并不是给定的，是在模型学习中获得的附加产物(也就是word2vec产生的那些向量玩意)。

2.2.2 线性变换：将2.2.1中的n-1个m维度的向量通过首尾拼接的方式线性变换成为(n-1)*m维的向量。也就是在中间那个tanh层输入处（下面）所有分向量C(w)合并为一个大的维度为(n-1)*m的向量[Mikolov的RNNLM在此做出改变：不仅仅只看n-1个单词的信息，而是看该词前面所有的单词信息]。

2.2.3 非线性变换：在中间那个tanh层处进行非线性变换。这里需要的是一个变换矩阵 $H\in R^{((n-1)*m)*h}$ 和偏置矩阵 $b \in R^{h}$ 。也就是对于中间那一层（tanh所在的那一层），该层的输入是(n-1)*m的向量 $x$ ，输出是 $z=tanh(Hx+d)$ 。经过线性变换后，先前的(n-1)*m维的向量成为了h维的向量。

2.2.4 输出处理：在最后一层（softmax层）进行处理输出。这里需要一个变换矩阵 $W \in R^{h*v}$ 和一个偏置矩阵 $b \in R^{v}$ 。最后输出就是 $Wz+b$ 。注意到最后输出的是一个v维度的向量，和我们的第一节中词典D的维度是一致的。向量中每一个维度对应的实数就是输出该单词的概率。

2.3 准则

对所有的训练样本，其准则为使 $-\sum_{t=n}^{T}\log p(w_{t}|w_{t-n+1}...w_{t-1})+ \lambda$ 取最小,此处 $\lambda$ 为正则项。可以使用梯度下降法进行求取。

模型中需要人工设定的参数是模型的元数n，词向量的维度m，隐层的输出维度h。

需要模型优化的参数：变换矩阵W和H，偏置矩阵d和b，查表所使用的词向量表都是需要优化的参数，也就是我们所求取的参数。

3.实验结果

语言模型困惑度 $PPL=$\sqrt[T]{\prod_{i=1}^{T}\frac{1}{p(w_{t}|w_{t-n+1}...w_{t-1})}}$$ 。模型困惑度是用来评价不同的语言模型好坏的一种方法（还有一种方法是Word Error Rate，Mikolov的博士论文《Statistical Language Models based on Neural Networks》博士论文对这两种方法有介绍和比较）。给定测试数据集合，模型在该测试集合上的困惑度越小越好。

测试集合一：

Brown Corpus，共计118w单词，其中80w训练，20w验证，其他18w作为测试集合。

在n=5，m=30，h=100时候NNLM的PPL为270。该测试集合目前最好的n-gram模型（n=3）的PPL为312。设置权重进行模型融合后的PPL为252。

测试集合二：

AP News，共计1600w词，其中1400w训练，100w验证，其他100w作为测试集合。

在n=6，m=100，h=109时候NNLM的PPL为109。该测试集合目前最好的n-gram模型的PPL为117。

网上学习资料：

关于神经网络语言模型的博客：点击打开链接

Mikolov的博士论文《Statistical Language Models based on Neural Networks》关于n-gram语言模型的评价是简单实用（N-gram models are today still considered as state of the art not because there are no better techniques, but because those better techniques are computationally much more complex, and provide just marginal improvements, not critical for success of given application.），模型的关键就是选择n值和平滑技术。其固有缺点如下：

第一，n-gram模型的n值无法取大。因为模型n-gram片段的数量会随着n值的变大指数增长。这一点就决定了n-gram模型无法有效的利用更长的上下文信息。特殊的，当被提供海量训练语料时，n-gram模型也无法有效捕捉一些长距离的语言现象。

第二，即使n值可以取得比较大，n-gram无法有利用长距离的上下文信息。例如，有一个句子The sky above our heads is bleu. 这句话里面单词 bleu对单词sky有着很强的依赖关系，不管这两个单词中间插入多少变量都不会破坏这种关系。例如The sky this morning was bleu. 但是对n-gram模型，即使放开n值的限制，取一个较大的n值，也无法有效地捕捉这种长距离的语言现象。

第三，n-gram模型无法高效的对相似的词语进行辨别。例如：训练语料中存在Party will be on Monday. 和Party will be on Tuesday. 模型无法对类似Party will be on Friday.的句子赋予较高的概率。虽然我们人能够清楚知道“Monday”,"Tuesday","Friday"这些是类似的概念，但是仅仅对字面进行建模的n-gram无法辨别。

19 0