逻辑回归

来源：互联网发布：汤森路透数据库怎么用编辑：程序博客网时间：2024/05/17 20:12

sigmoid，或者说exponential family具有的最佳性质，即maximum entropy的性质。
虽然不清楚历史上孰先孰后，但这并不妨碍maximum entropy给了logistic regression一个很好的数学解释。

为什么maximum entropy好呢？entropy翻译过来就是熵，所以maximum entropy也就是最大熵。熵原本是information theory中的概念，用在概率分布上可以表示这个分布中所包含的不确定度，熵越大不确定度越大。所以大家可以想象到，均匀分布熵最大，因为基本新数据是任何值的概率都均等。

而我们现在关心的是，给定某些假设之后，熵最大的分布。也就是说这个分布应该在满足我假设的前提下越均匀越好。比如大家熟知的正态分布，正是假设已知mean和variance后熵最大的分布。

回过来看logistic regression，这里假设了什么呢？首先，我们在建模预测 Y|X，并认为 Y|X 服从bernoulli distribution，所以我们只需要知道 P(Y|X)；其次我们需要一个线性模型，所以 P(Y|X) = f(wx)。接下来我们就只需要知道 f 是什么就行了。而我们可以通过最大熵原则推出的这个 f，就是sigmoid。

考虑任意多类（不仅是两类）的分类问题。

Exponential model 的形式是这样的：
假设第i个特征对第k类的贡献是 $w_{ki}$ ，则数据点 $(x_1, \ldots, x_n)$ 属于第k类的概率正比于 $\exp(w_{k1}x_1 + \ldots + w_{kn}x_n)$ 。（省略bias）

因为一个数据点属于各类的概率之和为1，所以可以得到
$P(y = k) = \frac{\exp(\sum_{i=1}^n w_{ki}x_i)}{\sum_{k'} \exp(\sum_{i=1}^n w_{k'i}x_i)}$

现在回到两类（0、1）的情况，此时分母上只有两项：
$P(y = 1) = \frac{\exp(\sum_{i=1}^n w_{1i}x_i)}{\exp(\sum_{i=1}^n w_{1i}x_i) + \exp(\sum_{i=1}^n w_{0i}x_i)}$

分子、分母同除以分子，并设 $w_i = w_{1i} - w_{0i}$ ，则有
$P(y = 1) = \frac{1}{1 + \exp(-\sum_{i=1}^n w_i x_i)}$

喏，这就是logistic函数。其中参数 $w_i$ 表示第i个特征对1类的贡献比对0类的贡献多多少。

0 0