4.3 概率判别式模型

来源：互联网发布：java常用工具编辑：程序博客网时间：2024/05/01 02:26

4.3 概率判别式模型

1、判别式模型

生成式模型的核心思想是通过最大似然法求出类概率密度的参数和类先验概率密度，然后用贝叶斯公式求出后验概率密度。是一种间接性的方法。在本节中，我们将显⽰地使⽤⼀般的线性模型的函数形式，然后使⽤最⼤似然法直接确定它的参数。

2、固定基函数

⽬前为⽌，我们已经考虑了直接对输⼊向量 x 进⾏分类的分类模型。然⽽，如果我们⾸先使⽤⼀个基函数向量 ϕ(x) 对输⼊变量进⾏⼀个固定的⾮线性变换，所有的这些算法仍然适⽤。但这样做就解决了某些 x 空间线性不可分的问题，因为基函数将其变换到线性可分的 ϕ(x) 空间。

3、logistic 回归

在上节中我们将二分类问题的后验概率写成作⽤在特征向量 ϕ 的线性函数上的 logistic sigmoid 函数的形式，即:

p (C 1 ∣ ϕ) = σ (ω T ϕ)

这个模型被称为 logistic 回归。
对于⼀个

M 维特征空间

ϕ ，这个模型有

M 个可调节参数。相反，如果我们使⽤最⼤似然⽅法调节⾼斯类条件概率密度，就需要更多的参数描述均值、协方差及先验概率，并且参数的数量随

M 的增大以二次方式增长。这里体现了logistic回归的优点。

对于一个数据集 ϕn、tn，似然函数可写为：

p (t ∣ ω) = \prod n = 1 N y t n n (1 - y n) 1 - t n

我们可以通过取似然函数的负对数的⽅式，定义⼀个误差函数。这种⽅式产⽣了交叉熵（ cross-entropy ）误差函数，形式为:

E (ω) = - ln p (t ∣ ω) = - \sum n = 1 N {t n ln y n + (1 - t n) ln (1 - y n)}

两侧关于

ω 求梯度：

\nabla E (ω) = \sum n = 1 N (y n - t n) ϕ n

最⼤似然⽅法⽆法区分某个解优于另⼀个解，并且在实际应⽤中哪个解被找到将会依赖于优化算法的选择和参数的初始化。注意，即使与模型的参数相⽐数据点的数量很多，只要数据是线性可分的，这个问题就会出现。通过引⼊先验概率，然后寻找

ω 的 MAP 解，或者等价地，通过给误差函数增加⼀个正则化项，这种奇异性就可以被避免。

4、迭代重加权最小平方

由于logistic函数是非线性函数，其最大似然解没有解析解，但由于误差函数是凸函数，可以确定其存在唯一的最小值，我们可以用一种迭代法逼近这个最优解。这种迭代⽅法基于 Newton-Raphson 迭代最优化框架，使⽤了对数似然函数的局部⼆次近似。为了最⼩化函数 E(ω) ， Newton-Raphson 对权值的更新的形式为:

ω n e w = ω o l d - H - 1 \nabla E (ω)

其中

H 是⼀个 Hessian 矩阵，它的元素由

E(ω) 关于

ω 的⼆阶导数组成。

首先考虑在线性模型中使用该迭代法，误差函数为平方和误差函数。这个误差函数的梯度和Hessian矩阵为：

\nabla E (ω) = \sum n = 1 N (ω T ϕ n - t n) ϕ n = Φ T Φ ω - Φ T t

H = \nabla \nabla E (ω) = \sum n = 1 N ϕ T n ϕ n = Φ T Φ

其中

Φ 是 N × M 设计矩阵，第 n ⾏为

ϕTn。
于是Newton-Raphson 更新的形式为：

ω n e w = ω o l d - (Φ T Φ) - 1 (Φ T Φ ω o l d - Φ T t) = (Φ T Φ) - 1 Φ T t

可以看到这是标准的最⼩平⽅解。

现在考虑把该迭代法在logistic交叉熵误差函数中使用，误差函数的梯度和Hessian矩阵为：

\nabla E (ω) = \sum n = 1 N (y n - t n) ϕ n = Φ T (y - t)

H = \nabla \nabla E (ω) = \sum n = 1 N y n (1 - y n) ϕ n ϕ T n = Φ T R Φ

其中

R 是N x N的对角矩阵，满足

Rnn=yn(1−yn)。
可以看到

H 不再是常量，而是通过权矩阵

R 依赖于

ω。但由于

0<yn<1 的性质，可以得到对任意向量

u 都有

uTHu>0，因此

H 是正定的，因此误差函数是凸函数，存在唯一最小值。
于是Newton-Raphson 更新的形式为：

ω n e w = ω o l d - (Φ T R Φ) - 1 Φ T (y - t) = (Φ T R Φ) - 1 {Φ T R Φ ω o l d - Φ T (y - t)} = (Φ T R Φ) - 1 Φ T R z

其中

z 是一个N维向量，

z=Φωold−R−1(y−t)

更新公式的形式为⼀组加权最⼩平⽅问题的规范⽅程。由于权矩阵 R 不是常量，⽽是依赖于参数向量 ω ，因此我们必须迭代地应⽤规范⽅程，每次使⽤新的权向量 ω 计算⼀个修正的权矩阵 R 。由于这个原因，这个算法被称为迭代重加权最⼩平⽅（ iterative reweighted least squares ），或者简称为 IRLS 。

5、多类 logistic 回归

在生成式模型中，我们得到类后验概率的表示：

p (C k ∣ ϕ) = y (ϕ) = e x p ( a k ) \sum j e x p ( a j )

其中，

ak=ωTkϕ
生成式模型中处理的方法是用最大似然法求出类条件概率和先验概率，再间接求出后验概率从而确定参数

ω。在判别式模型中，我们将用最大似然法直接确定参数

ω。

似然函数为：

p (T ∣ ω 0, ω 1 . . . ω k) = \prod n = 1 N \prod k = 1 K p (C k ∣ ϕ n) t n = \prod n = 1 N \prod k = 1 K y t n k n k

(待续)

6、probit回归

指数族分布一大类的类条件概率分布的后验概率都是logistic形式，但还有一部分的后验概率分布不是如此简单的形式，所以有必要考虑其他的模型。
考虑一般的二分类线性模型：

p (t = 1 ∣ a) = f (a)

其中

a=ωTϕ，

f(.)是激活函数。
设置目标值：

{t n = 1, a n \geq θ t n = 0, 其 他 情 况

如果

θ 的值是从概率分布

p(θ) 中抽取，那么对应的激活函数由累积分布函数给出：

f (a) = \int a - \infty p (θ) d θ

假设

p(θ) 是零均值、单位方差的高斯分布，那么对应的激活函数为：

Φ (a) = \int a - \infty N (θ ∣ 0, 1) d θ

这被称为逆 probit （ inverse probit ）函数。它的形状为 sigmoid 形，注意，使⽤更⼀般的⾼斯分布不会改变模型，因为这样做等价于对线性系数

ω 的重新缩放。逆 probit 函数的计算与下⾯的这个函数紧密相关：

e r f (a) = a π \sqrt \int a 0 e x p (- θ 2) d θ

它被称为erf函数或error函数，它与probit函数的关系是：

Φ (a) = 1 2 {1 + e r f (a 2 \sqrt)}

基于probit激活函数的一般线性模型成为probit回归。通常情况下probit回归得到的结果与logistic回归接近，但对于离群点probit函数更加敏感，因为对于

x→+∞ ，logistic函数呈exp(x)递减，而probit函数呈exp(-x^2)衰减。

7、标准链接函数

1 0