Logistic Regression和最大熵模型总结

来源:互联网 发布:139端口入侵 编辑:程序博客网 时间:2024/05/24 04:11

Logistic Regression模型和最大熵模型都属于对数线性模型,该模型学习的最优化算法包括改进的迭代尺度法、梯度

法、牛顿法和拟牛顿法等。

一. Logistic Regression模型

二项Logistic Regression模型,如下所示:



多项Logistic Regression模型(Softmax函数),如下所示:



其中,表示权值向量,而表示输入向量。


二. 最大熵模型

1. 最大熵原理

最大熵原理认为学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型是最好的模型。假设离散随机

变量的概率分布是,则其熵如下所示:


熵满足不等式,其中的取值个数,当且仅当是均匀分布时右边的等号成立。

2. 最大熵模型

将最大熵原理应用到分类得到最大熵模型。假设分类模型是一个条件概率分布,给定一个训练数据集

,学习的目标是用最大熵原理选择最好的分类模型。

特征函数关于经验分布的期望值,如下所示:


特征函数关于模型与经验分布的期望值,如下所示:


如果模型能够获取训练数据中的信息,那么就可以假设这两个期望值相等。并将作为模型学习的约束条件,如果有个特征函数,那么就有个约束条件。

最大熵模型的定义,如下所示:

假设满足所有约束条件的模型集合为,定义在条件概率分布上的条件

熵为,那么模型集合中条件熵最大的模型称为最大熵模型,式中对数为自然对数。

3. 最大熵模型的学习

对于给定的训练数据集以及特征函数,最大熵模型的学习等价于

约束最优化问题,如下所示:




求解约束最优化问题所得出的解,就是最大熵模型学习的解。具体推到,如下所示:

将约束最优化的原始问题转换为无约束最优化的对偶问题,通过求解对偶问题求解原始问题。

引进拉格朗日乘子,定义拉格朗日函数,如下所示:




最优化的原始问题是,对偶问题是由于拉格朗日函数的凸函数,因此原始

问题的解与对偶问题的解是等价的。记对偶函数,解为

的偏导数,如下所示:

令偏导数等于0,在的情况下,如下所示:


由于,如下所示:



其中,表示规范化因子,表示特征函数,表示特征权值。是最大熵模型,是最大熵模型中的参

数向量。

求解对偶问题内部极小化问题后,接下来求解对偶问题外部极大化问题。解为

最后应用最优化算法求对偶函数的极大化,得到即学习到的最大熵模型。需要说明的是对偶函数的

极大化等价于最大熵模型的极大似然估计。这样最大熵模型的学习问题就转换为具体求解对数似然函数极大化或对偶

函数极大化的问题。


三. 改进的迭代尺度法和拟牛顿法  

对于凸优化,常用的方法有改进的迭代尺度法、梯度下降法、牛顿法和拟牛顿法。牛顿法和拟牛顿法一般收敛的速度

更快。接下来主要介绍基于改进的迭代尺度法与拟牛顿法的最大熵模型学习算法。

1. 改进的迭代尺度法

2. 拟牛顿法


参考文献:

[1] 统计学习方法

原创粉丝点击