Logistic Regression和最大熵模型总结

来源：互联网发布：139端口入侵编辑：程序博客网时间：2024/05/24 04:11

Logistic Regression模型和最大熵模型都属于对数线性模型，该模型学习的最优化算法包括改进的迭代尺度法、梯度

下降法、牛顿法和拟牛顿法等。

一. Logistic Regression模型

二项Logistic Regression模型，如下所示：

$P(Y = 1|x) = \frac{{\exp (w \cdot x)}}{{1 + \exp (w \cdot x)}}$

$P(Y = 0|x) = \frac{1}{{1 + \exp (w \cdot x)}}$

多项Logistic Regression模型（Softmax函数），如下所示：

$P(Y = k|x) = \frac{{\exp ({w_k} \cdot x)}}{{1 + \sum\limits_{k = 1}^{K - 1} {\exp ({w_k} \cdot x)} }},k = 1,2,...,K - 1$

$P(Y = K|x) = \frac{1}{{1 + \sum\limits_{k = 1}^{K - 1} {\exp ({w_k} \cdot x)} }}$

其中， $w$ 和 $w_{k}$ 表示权值向量，而 $x$ 表示输入向量。

二. 最大熵模型

1. 最大熵原理

最大熵原理认为学习概率模型时，在所有可能的概率模型（分布）中，熵最大的模型是最好的模型。假设离散随机

变量 $X$ 的概率分布是 $P(X)$ ，则其熵如下所示：

$H(P) = - \sum\limits_x {P(x)\log P(x)}$

熵满足不等式 $0 \le H(P) \le \log \left| X \right|$ ，其中 $\left | X \right |$ 是 $X$ 的取值个数，当且仅当 $X$ 是均匀分布时右边的等号成立。

2. 最大熵模型

将最大熵原理应用到分类得到最大熵模型。假设分类模型是一个条件概率分布 $P(Y|X)$ ，给定一个训练数据集

$T = \{ ({x_1},{y_1}),({x_2},{y_2}),...,({x_N},{y_N})\}$ ，学习的目标是用最大熵原理选择最好的分类模型。

特征函数 $f(x,y)$ 关于经验分布 $\widetilde{P}(X,Y)$ 的期望值 ${E_{\widetilde P}}(f)$ ，如下所示：

${E_{\widetilde P}}(f) = \sum\limits_{x,y} {\widetilde P(x,y)f(x,y)}$

特征函数 $f(x,y)$ 关于模型 $P(Y|X)$ 与经验分布 $\widetilde P(X)$ 的期望值 ${E_{P}}(f)$ ，如下所示：

${E_p}(f) = \sum\limits_{x,y} {\widetilde P(x)P(y|x)f(x,y)}$

如果模型能够获取训练数据中的信息，那么就可以假设这两个期望值相等。并将 ${E_{\widetilde P}}(f) = {E_P}(f)$ 作为模型学习的约束条件，如果有 $n$ 个特征函数 $f_{i}(x,y)$ ， $i=1,2,\cdots ,n$ ，那么就有 $n$ 个约束条件。

最大熵模型的定义，如下所示：

假设满足所有约束条件的模型集合为 ${\cal C} \equiv \left\{ {P \in {\cal P}|{E_P}({f_i}) = {E_{\widetilde P}}({f_i}),i = 1,2,...,n} \right\}$ ，定义在条件概率分布 $P(Y|X)$ 上的条件

熵为 $H(P) = - \sum\limits_{x,y} {\widetildeP(x)P(y|x)\log P(y|x)}$ ，那么模型集合 ${\cal C}$ 中条件熵 $H(P)$ 最大的模型称为最大熵模型，式中对数为自然对数。

3. 最大熵模型的学习

对于给定的训练数据集 $T = \{ ({x_1},{y_1}),({x_2},{y_2}),...,({x_N},{y_N})\}$ 以及特征函数 $f_{i}(x,y)$ ， $i=1,2,\cdots ,n$ ，最大熵模型的学习等价于

约束最优化问题，如下所示：

$\mathop {\min }\limits_{P \in {\cal C}} - H(P) = \sum\limits_{x,y} {\widetilde P(x)P(y|x)\log P(y|x)}$

${\rm{s}}{\rm{.t}}{\rm{. }}{E_P}({f_i}) - {E_{\widetilde P}}({f_i}) = 0,{\rm{ }}i = 1,2,...,n$

$\sum\limits_y {P(y|x) = 1}$

求解约束最优化问题所得出的解，就是最大熵模型学习的解。具体推到，如下所示：

将约束最优化的原始问题转换为无约束最优化的对偶问题，通过求解对偶问题求解原始问题。

引进拉格朗日乘子 ${w_0},{w_1},{w_2},...,{w_n}$ ，定义拉格朗日函数 $L(P,w)$ ，如下所示：

$L(P,w) = - H(P) + {w_0}\left( {1 - \sum\limits_y {P(y|x)} } \right) + \sum\limits_{i = 1}^n {{w_i}\left( {{E_{\widetildeP}}({f_i}) - {E_P}({f_i})} \right)}$

$= \sum\limits_{x,y} {\widetilde P(x)P(y|x)\log P(y|x) + } {w_0}\left( {1 - \sum\limits_y {P(y|x)} } \right)$

$+ \sum\limits_{i = 1}^n {{w_i}\left( {\sum\limits_{x,y} {\widetilde P(x,y){f_i}(x,y)} - \sum\limits_{x,y} {\widetilde P(x)P(y|x){f_i}(x,y)} } \right)}$

最优化的原始问题是 $\mathop {\min }\limits_{P \in {\cal C}} \mathop {\max }\limits_w L(P,w)$ ，对偶问题是 $\mathop {\max }\limits_w \mathop {\min }\limits_{P \in {\cal C}} L(P,w)$ 。由于拉格朗日函数 $L(P,w)$ 是 $P$ 的凸函数，因此原始

问题的解与对偶问题的解是等价的。记对偶函数 $\psi (w) = \mathop {\min }\limits_{P \in {\cal C}} L(P,w) = L({P_w},w)$ ，解为 ${P_w} = \arg \mathop {\min }\limits_{P \in {\cal C}} L(P,w) = {P_w}(y|x)$ 。

求 $L(P,w)$ 对 $P(y|x)$ 的偏导数，如下所示：

$\frac{{\partial L(P,w)}}{{\partial P(y|x)}} = \sum\limits_{x,y} {\widetilde P(x)\left( {\log P(y|x) + 1} \right) -\sum\limits_y {{w_0} - } } \sum\limits_{x,y} {\left( {\widetilde P(x)\sum\limits_{i = 1}^n {{w_i}{f_i}(x,y)} } \right)}$ $= \sum\limits_{x,y} {\widetilde P(x)\left( {\log P(y|x) + 1 - {w_0} - \sum\limits_{i = 1}^n {{w_i}{f_i}(x,y)} } \right)}$

令偏导数等于0，在 $\widetilde P(x) > 0$ 的情况下，如下所示：

$P(y|x) = \exp \left( {\sum\limits_{i = 1}^n {{w_i}{f_i}(x,y) + {w_0} - 1} } \right) = \frac{{\exp \left( {\sum\limits_{i = 1}^n {{w_i}{f_i}(x,y)} } \right)}}{{\exp (1 - {w_0})}}$

由于 $\sum\limits_y {P(y|x) = 1}$ ，如下所示：

${P_w}(y|x) = \frac{{\exp \left( {\sum\limits_{i = 1}^n {{w_i}{f_i}(x,y)} } \right)}}{{{Z_w}(x)}}$

${Z_w}(x) = \sum\limits_y {\exp \left( {\sum\limits_{i = 1}^n {{w_i}{f_i}(x,y)} } \right)}$

其中， ${Z_w}(x)$ 表示规范化因子， $f_{i}(x,y)$ 表示特征函数， $w_{i}$ 表示特征权值。 $P_{w}(y|x)$ 是最大熵模型， $w$ 是最大熵模型中的参

数向量。

求解对偶问题内部极小化问题 $\mathop {\min }\limits_{P \in {\cal C}} L(P,w)$ 后，接下来求解对偶问题外部极大化问题 $\mathop {\max }\limits_w \psi (w)$ 。解为 ${w^ * } = \arg \mathop {\max }\limits_w \psi (w)$ 。