logistic回归

来源：互联网发布：数据分析报告的结构编辑：程序博客网时间：2024/05/13 05:03

模型知识点：logistic详解，logistic与softmax 与 Lasso regression 与 ridge regression ， L0、L1、L2范式。

一，logistic回归

通常目标标签数据都是以概率的形式给出，而概率p的取值在0到1之间，
因此直接把概率p=z(x)与x之间直接建立起函数关系是不合适的，即p=z(x)=α+βx。
因此人们通常用p的某个函数f(p)来与x之间建立函数关系，即f(p)=z(x)=α+βx。
几率(odds)：一个事件的几率，是指该时间发生于不发生的概率比值，若事件发生为p，那么事件发生的几率就是odds=p1−p。
对数几率(log odds或logit)：对数几率就是logit(p)=lnp1−p。
所以logistic回归就是在目标标签的对数几率和特征之间建立线性关系的模型，即logit(p)=lnp1−p=f(p)=z(x)=α+βx，求得p=11+e−z(x)。

分类问题中为什么logistic比线性回归好：
线性回归用于分类，y = z(x) = α + βx。
这里写图片描述
这主要是由于线性回归在整个实数域内敏感度一致，每个样本考虑的权重一样，每个样本对回归线的都有相同的影响。而逻辑回归在z(x) = 0时，十分敏感，在z(x) >> 0或z(x) << 0处，都不敏感，更在意z(x) = 0附近的数据是否被正确分类，z(x) = 0附近的数据对模型参数的影响更大，因为逻辑回归把z(x) >> 0或z(x) << 0处的数据都压缩在一起，对于p来说，它们的差异很小。线性回归更多的是找数据拟合线，而logistic找的是数据分割线。下图是logistic的密度函数和分布函数：
这里写图片描述
最后加一点，logistic模型的MLE估计和log对数损失函数估计是等价的。

二，softmax

Logistic回归模型是softmax的特殊形式。Softmax是n分类模型，其中每一类的概率计算如下:

⎛ ⎝ ⎜ ⎜ ⎜ p 1 p 2 . . . p n ⎞ ⎠ ⎟ ⎟ ⎟ = 1 \sum n i = 1 e z i ( x ) ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ e z 1 (x) e z 2 (x) . . . e z n (x) ⎞ ⎠ ⎟ ⎟ ⎟ ⎟

总共需要训练

z1、z2…到zn组参数，每个

zi(x)=αi+βix。
容易得到当n=2时，得到

p1=ez1(x)ez1(x)+ez2(x),p2=ez2(x)ez1(x)+ez2(x) 。
令

p1中分子分母都除以ez1(x)得到

p1=11+ez2(x)−z1(x) 。
令

z(x)=z1(x)−z2(x)，则

p1=11+e−z(x) 得到logistic回归模型。求解模型时，只需要优化z(x)中的参数即可，而不是优化

z1(x)和z2(x)两组参数。

三，Lasso regression 和 ridge regression 和 L0，L1，L2范式

Logistic回归模型的目标函数为：J=lnL(w)=∑ni=1yilnpi+(1−yi)ln(1−pi)
这样直接优化求参，容易出现过拟合现象，所以经常会给目标函数加一些正则项来防止过拟合，即修改后的目标函数：J∗(w)=J(w)+正则项。
通常的正则项有L0，L1，L2范式，其中L0范式表示w中非零项的个数，L1范式表示w的绝对值之和，L2范式表示w的平方项之和。

L 0 = | | w | | 0 = \sum 1 w \neq 0

L 1 = | | w | | 1 = \sum | w | ， 其 中 | w | 表 示 w 的 绝 对 值

L 2 = | | w | | 2 = \sum | w | 2

Lasso regression是指目标函数中加入

L1范式的回归模型，也叫稀疏规则算子。
Ridge regression是指目标函数中加入

L2范式的回归模型，也叫岭回归。

L1和L2范式，都能使得参数变得稀疏，变得靠近0，但L1范式比L2范式能得到更为稀疏的参数解，如下图片所示：
这里写图片描述

参考：
http://blog.csdn.net/xbinworld/article/details/44276389
http://blog.csdn.net/cyh_24/article/details/50359055
https://wenku.baidu.com/view/1e69ea0a2f60ddccda38a067.html

之后添加（MaxEnt（Max Entropy）GLM广义线性模型，总结下logistic的decision boundary）（其实二分类问题，就是大于某个值就是正类，否则是负类。如果是x+y<10，那么分界线就是直线，如果x^2+y^2<10，那么分界线就是个园，它还可以是更复杂的闭环后者闭球）

0 0