程序博客网 > 大数据个人征信

逻辑回归

来源：互联网发布：大数据个人征信编辑：程序博客网时间：2024/05/20 04:15

逻辑回归

逻辑回归（Logistic Regression,LR）是一种很常用的分类算法，对于一般的二分类情况，给定N个训练样本，(x1,y1)，(x2,y2)...(xN,yN)，其中xi∈Rn是一个n维向量，yi∈{−1,+1}表示了其对应样本的标签，1代表正样本，-1代表负样本。一般的，逻辑回归模型就是使用sigmoid函数σ(x)=11+exp(−x)将样本特征向量与其属于正样本的概率联系起来：

p (y i = + 1 | x i, w) = σ (w T x i) = 1 1 + e x p ( - w T x i )

同理，样本属于负样本的概率为：

p (y i = - 1 | x i, w) = 1 - p (y i = + 1 | x i, w) = 1 - 1 1 + e x p ( - w T x i ) = e x p ( - w T x i ) 1 + e x p ( - w T x i ) = 1 1 + e x p ( w T x i ) = σ (- w T x i)

所以，可以将上述两个式子综合在一起可以得到：

p (y i = \pm 1 | x i, w) = σ (y i w T x i) = 1 1 + e x p ( - y i w T x i )

有了上述公式，LR的主要目标就是找到一个合适的

w，使得上述函数可以将正负样本尽可能的分开。这里寻找

w的基本原则是采取统计学中的极大似然估计（Maximun Likelihood Estimation，MLE）。极大似然的中心思想是通过已知的样本，来估计总体的参数。这种思想实际上是一种所谓的“经验风险最小化原则”，相对于经验风险最小化，还有结构风险最小化，后文会对结构风险最小化做进一步解释。
使用极大似然估计求取

w的具体方法可以看成如下的一个无约束问题：

m a x w \sum i = 1 N l o g (p (y i = \pm 1 | x i, w)) = m a x w - \sum i = 1 N l o g (1 + e x p (- y i w T x i))

消去负号，可将上述最大化问题变为优化问题中常用的最小化问题：

m i n w l (w) = \sum i = 1 N l o g (1 + e x p (- y i w T x i))

求解上述最优化问题，一般的方法有梯度下降法、牛顿法以及各种改进的拟牛顿法（DFP，BFGS，L-BFGS）具体求解过程这里不做赘述。

结构风险最小化与正则项

当我们数据量较少而特征的属性个数又相对较多时，通过上述方法求得模型可能会出现过拟合，如下图所示：过拟合的情况
上图中黑色的线是明显出现过拟合的分类线，这种分类器虽然在训练集上有很好的效果（训练误差为0），但是很明显其泛化能力相当差，我们希望得到的是类似于蓝色的分类器。

为了避免出现过拟合的情况，一般加入对模型复杂度的限定，即正则项（Regularizer）。一般常用的正则项有L1和L2正则项。加入正则项后，上述优化问题便成了如下形式：
L1正则项：

m i n w l o g (1 + e x p (- y i w T x i)) + λ | | w | |

L2正则项：

m i n w l o g (1 + e x p (- y i w T x i)) + λ 2 | | w | | 2

上述的带正则项的优化过程就是以结构风险最小化为原则，在寻求经验风险最小的同时还要结合当前模型的复杂度，复杂度越高，惩罚程度也就越大。

逻辑回归用于多分类

逻辑回归用于多分类的思想于二分类的思想很类似，只不过分类函数变了。对于二分类问题来说，其使用的分类函数是sigmoid函数，而多分类则使用softmax函数：

p (y = k | x, w, b) = s o f t m a x (w x + b) = e x p ( w k x + b k ) \sum i e x p ( w i x + b i )

通过上式可以看出，其实二分类问题的sigmoid函数就是softmax的一个特例。对于二分类问题，当

p(yi=±1|xi,w)>=0.5时，则认为当前的样本为正样本，

p(yi=±1|xi,w)<0.5,则认为当前的样本为负样本。
同理，其损失函数为：

l (w, b) = \sum k = 1 N l o g (p (y = k | x, w, b))

1 0

大数据个人征信

大数据个人征信

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子 350挖机旋挖机租赁挖机加长臂挖机神钢挖机破碎斗二手小挖机挖机200 挖机夹木器矿山挖机微型小挖机长臂挖机挖机网 60挖机久保田挖机挖机证挖机修理厂挖机铲斗挖机32个动作分布图 2018年新挖机价格大全挖机18个动作分解图为啥挖机师傅不建议学挖机挖机大图鉴赏神钢挖机故障代码大全广西二手挖机个人转让二手小挖机转让个人挖机转让挖机品牌大全轮式挖机价格儿童挖机表演挖机维修培训学校挖机快换接头后八轮挖机平板车中型挖机价格挖机证多少钱小型挖机多少钱一台挖机公司起名铁甲二手挖机二手60挖机价格 60挖机价格表小挖机平板车挖机培训多少钱