机器学习——线性模型之逻辑回归

来源：互联网发布：java word svg 编辑：程序博客网时间：2024/05/16 17:45

一、前言

1、逻辑回归（logistic
regression）为概率型非线性回归模型，使研究二分类问题的多变量分析方法。

2、逻辑回归并不是回归方法，而是分类方法。

3、常规步骤：构造预测函数；构造损失函数；求解参数。

二、LR模型

1、逻辑回归是广义线性模型： $f(x)=w^T x=w_0+w_1 x_1+⋯+w_n x_n$

a) 这并不是回归超平面，而是分类超平面

b) 二分类问题，正负数域代表两个类别

c) 每个样本点到超平面的距离为 $r=|w^T x|/‖w‖$ ，越远则越能确定该样本点属于该侧类别

2、逻辑回归的联系（激活）函数为sigmoid函数 $g(x)=1/(1+e^{-x})$

3、构造预测函数： $h(x)=g(f(x))=g(w^T x)=1/(1+e^{-w^T x} )$

a) 设条件概率： $P(y=1│x,w)=h(x)$ ； $P(y=0│x,w)=1-h(x)$

b) 几何解释：变换矩阵w将样本从原空间中映射到一维表示，变换矩阵W表示一个分类超平面，该一维上的值表示样本点在原空间中与超平面的距离，正负数值表示原空间被超平面分割的两个子空间（二分类），再由sigmoid函数将其值域压缩到0到1之间，从而能评估其条件概率。

c) 发生比 $odds=(P(y=1│x,w))/(P(y=0│x,w) )=e^{w^T x}$ ，取对数 $ln \ odds=w^T x$

4、构造损失函数（交叉熵）： $J(w)=-1/m ∑_{i=1}^m y^{(i)} \ log \ h(x^{(i)} )+(1-y^{(i)} ) \ log \ [1-h(x^{(i) } )]$

a) 条件概率综合起来的似然函数： $L(w)=∏_{i=1}^m \ P(y^{(i)} │x^{(i)},w) =∏_{i=1}^m \ h(x^{(i)} )^{y^{(i)} } (1-h(x^{(i)} ))^{1-y^((i) ) }$

b) 对数似然函数： $l(w)=log \ L(w)=∑_{i=1}^m y^{(i)} \ log \ h(x^{(i)} )+(1-y^{(i)} ) \ log \ [1-h(x^{(i) } )]$

c) 对数似然乘以 $-1/m$ ： $J(w)=-1/m \ l(w)=-1/m ∑_{i=1}^m y^{(i)} \ log \ h(x^{(i)} )+(1-y^{(i)} ) \ log \ [1-h(x^{(i) } )]$ ，其最小时可求得最佳参数，确定分类超平面，使得二分类问题被解决。

5、求解参数：二参数可直接求最佳解；多参数问题过于复杂，通常用梯度下降法或牛顿法求近似解

阅读全文

0 0