《统计学习方法》笔记（6）：逻辑斯谛回归&最大熵模型

来源：互联网发布：qq输入法mac 编辑：程序博客网时间：2024/04/30 03:13

逻辑斯谛回归和最大熵模型，从原理上看二者并不十分相关，不知是不是因为篇幅都相对较小，所以将这两部分内容放到一起。本文还是从原理、应用场景以及优缺点来做简要介绍。

1、逻辑斯谛回归

逻辑斯谛回归通过结合线性回归和Sigmod转换函数（f(x)=1/(1+exp(x))），将数值预测结果转换为不同类别的条件概率，取条件概率最大的类别为预测结果，从而实现样本的分类。

该模型可应用于各种分类场景。相比于其它分类算法，其最大的特点在于可以为预测的结果提供相应的概率值，即可以直观的分析每个样本分类结果的确信程度。

2、最大熵模型

最大熵模型是指：在所有满足约束条件的概率模型集合中，熵最大的模型是最好的；可以证明，在没有其它约束条件时，均匀分布模型是最大熵模型。

例如：P(A)+P(B)=1，按照最大熵模型得到P(A)=P(B)=0.5，也就是均匀分布。

可以从物理学的角度来理解该模型：根据热力学第二定理，如果没有外力干扰，系统的熵值是趋于不断增加的。由此，在没有其它额外参考信息的情况下，选择熵值最大的模型是最可靠的，因为没有外在动力时，宇宙本来就是趋于无序的。

延伸：和决策树模型的比对分析

粗看起来，上述模型似乎与在决策树中选用熵增最大的特征参量有点儿矛盾。因为熵增（即信息增益）最大，即意味着要得到熵最小的模型。

先明确一点：两个模型中关于熵的定义完全一样，均用来表征模型的有序程度。熵值越大，越是无序。但两个模型其实并不矛盾，理由如下：

1）二者应用的前提不同。对于最大熵模型而言，在所有满足约束条件的模型中，如果没有其他的参考信息，则选用熵最大的模型；而决策树模型中，由于提供了特征参量这样的额外参考信息，因此不能直接应用最大熵原理。

2）决策树并没有使用最小熵模型。我们都知道，完全生长决策树的熵是最小的，然而却常常不是最好的模型（容易“过拟合”），经过剪枝后的决策树反而能够反映真实数据分布。如果说树的分裂意味着熵的减小，则剪枝意味着熵的增加；这样看来，我们选择的其实是应用了所有已知信息之后熵较大的模型。

3、梯度下降和牛顿法

关键的，二者主要的不同在于：梯度下降采用平面去逼近最优解（要求函数一阶可导），牛顿法采用曲面去逼近（要求函数二阶可导），牛顿迭代法一般收敛的速度要快一些。

与梯度下降法（gradientdecend）对应的，还有梯度上升法（gradient boost）；它们的原理相同，梯度下降常用来求最小值，梯度上升用来求最大值。我们在处理分类问题时，常常将其转换为损失函数最小化的问题，因此梯度下降更为常用。

0 0