Coursera自然语言处理 Week1 笔记

来源：互联网发布：手机怎么连接电脑网络编辑：程序博客网时间：2024/05/16 09:30

从今天开始，重新开始看Micheal Collins的NLP公开课。预计7天时间。

1. 概率模型- Markov Process

毕竟是机器学习嘛，所以第一步，先要把实际问题转化成数学模型。在NLP中，一般使用的都是概率模型，即把语言模型变成概率论范畴。

比如说，现在有一段语音，说的很含糊，没有听清楚，好像是“like your”，又好像是“lie cured”。那么到底是哪一种呢？我们就看在现有的语料库中，到底是“like your”出现的概率大，还是“lie cured”的概率大。

于是就把语音识别问题转变成了一个概率问题：输入一串字符，输出这串字符组合在一起的概率，如果概率大，就是正确的句子。下面构建这个模型:

假设有一个句子S={x1,x2,x3,...,xn}，则这个句子出现的概率理所当然如下：

P (S) = P (x 1, x 2, . . ., x n)

根据贝叶斯公式（条件概率公式），可知：

P (S) = P (x 1, x 2, . . ., x n) = P (x 1) P (x 2 | x 1) P (x 3 | x 1, x 2) . . . P (x n | x 1, . . x n - 1)

为方便起见，补充x−1=x0=∗ (星号字符，无实际意义)，则：

P (S) = \prod i = 1 n P (x i | x 1, . . ., x i - 1)

对于，其中的P(xi|x1,...,xi−1)这一项，根据大数定律可以约等于：

P (x i | x 1, . . ., x i - 1) \approx # ( x 1 , . . . , x i - 1 , x i ) # ( x 1 , . . . , x i - 1 )

然而大数定律满足的条件是，#(x1,...,xi−1,xi)和#(x1,...,xi−1)要足够大，但是实际情况下，这样组合的数据并不会特别多，甚至会有很多等于0，所以无法这样去约等于。

正确的计算方式是用“Markov process”来假设：

第一种假设:

Unigram：

$P (x i | x 1, . . ., x i - 1) \approx P (x i)$

则我们的概率模型变成：

$P (S) = \prod i = 1 n P (x i | x 1, . . ., x i - 1) \approx \prod i = 1 n P (x i)$

第二种假设:

Bigram (First-order Markov):

$P (x i | x 1, . . ., x i - 1) \approx P (x i | x i - 1)$

则我们的概率模型变成：

$P (S) = \prod i = 1 n P (x i | x 1, . . ., x i - 1) \approx \prod i = 1 n P (x i | x i - 1)$

第三种假设:

Trigram (Second-order Markov):

$P (x i | x 1, . . ., x i - 1) \approx P (x i | x i - 1, x i - 2)$

则我们的概率模型变成：

$P (S) = \prod i = 1 n P (x i | x 1, . . ., x i - 1) \approx \prod i = 1 n P (x i | x i - 1, x i - 2)$

至此，我们模型框架已经搭建完毕，接下来只要把P(xi)或者P(xi|xi−1)或者P(xi|xi−1,xi−2)计算出来即可，这些概率就是概率模型的参数，需要从训练集中学习出来。

2. 模型参数计算

假设训练集中共有V个单词，根据大数定律有：

Unigram - P(xi)=#(xi)V
Bigram - P(xi|xi−1)=#(xi−1,xi)#(xi−1)
Trigram - P(xi|xi−1,xi−2)=#(xi−2,xi−1,xi)#(xi−1,xi)

这里大数定律基本可以成立，因为这样的小型组合还是不难找到的。

如此，就可以把模型中的每一个参数计算出来了。

3. 参数计算的问题

3.1 Unknown words pair

虽然可以找到比较大数据集，但是在训练集中依旧可能出现#(xi−2,xi−1,xi)=0，或者#(xi−1,xi)=0的情况。但是训练集中不出现，并不代表这种情况不可能发生，所以需要模型具有泛化和推演能力。

3.1.1 Linear Interpolation

第一种解决方法称为 Linear Interpolation。

先再看一下三种参数计算方式：

Unigram - q(xi)=#(xi)V
Bigram - q(xi|xi−1)=#(xi−1,xi)#(xi−1)
Trigram - q(xi|xi−1,xi−2)=#(xi−2,xi−1,xi)#(xi−1,xi)

单纯使用式子1是最有可能造成underfitting的，因为没有一点儿上下文关联信息在里面；使用式子3是最有可能造成overfitting的，因为对上下文的关联性太强，对于训练集中的context记忆太深。

因此，解决Unknown words pair问题，提升模型泛化能力的其中一个方法，就是结合上面式子1-3，不单纯地使用一个假设，令：

P (x i | x i - 1, x i - 2) = λ 1 q (x i) + λ 2 q (x i | x i - 1) + λ 3 q (x i | x i - 1, x i - 2)

其中，要求λ1+λ2+λ3=1，证明过程如下：

考虑到这是一个概率问题，即训练集中，所有的三元组P(xi|xi−1,xi−2)之和应等于1:

$\sum P (x i | x i - 1, x i - 2) = \sum λ 1 q (x i) + \sum λ 2 q (x i | x i - 1) + \sum λ 3 q (x i | x i - 1, x i - 2) = λ 1 \sum q (x i) + λ 2 \sum q (x i | x i - 1) + λ 3 \sum q (x i | x i - 1, x i - 2)$

其中，因为概率计算，所以有∑q(xi)=1, ∑q(xi|xi−1)=1, ∑q(xi|xi−1,xi−2)=1，

因此，

$\sum P (x i | x i - 1, x i - 2) = λ 1 + λ 2 + λ 3 = 1$