逻辑回归原理及推导过程

来源：互联网发布：ask软件编辑：程序博客网时间：2024/06/05 07:49

这篇文章将详细地讲解逻辑回归的推导过程。
原理：
逻辑回归处理的是分类问题，具体来说，是处理二分类问题。为了实现逻辑回归分类器，我们可以在线性回归的基础上（即每个特征乘以一个回归系数后相加），添加一个sigmoid函数，进而得到一个范围在0-1之间的数值。任何大于0.5的数据会被分入1类，小于0.5即被分入0类。至于为什么要用sigmoid函数，简单来说，是为了将标签归到[0,1]的范围内；深层原因，sigmoid函数的使用是由指数分布族决定的，具体内容会在下一篇博客中做详细讲解。
详细推导：
根据以上描述，我们可以得到预测值hθ(x) :

h θ (x) = g (θ T x) = 1 1 + e - θ T x

其中

g(z)=11+e−z 即为sigmoid函数。
以上二分类问题满足伯努利分布(Bernoulli distribution)，即：

p (y = 1 | x; θ) = h θ (x) p (y = 0 | x; θ) = 1 - h θ (x)

因此：

p (y | x; θ) = h θ (x) y (1 - h θ (x)) 1 - y

假设样本之间是相互独立的，即似然函数如下：

L (θ) = = = p (Y | X; θ) \prod i = 1 m p (y (i) | x (i); θ) (h θ (x (i))) y (i) (1 - h θ (x (i))) 1 - y (i)

对数似然函数：

l (θ) = = = l o g L (θ) \sum i = 1 m l o g (h θ (x (i))) y (i) (1 - h θ (x (i))) 1 - y (i) \sum i = 1 m (y (i) l o g (h θ (x (i))) + (1 - y (i)) l o g (1 - h θ (x (i))))

为了方便理解，我们先对每一个样本进行分析，首先，对参数求导：

\partial l ( θ ) \partial θ j = = = y ( i ) h θ ( x ( i ) ) * \partial h θ ( x ( i ) ) \partial θ j + 1 - y ( i ) 1 - h θ ( x ( i ) ) * (- \partial h θ ( x ( i ) ) \partial θ j) y ( i ) ( 1 - h θ ( x ( i ) ) ) - ( 1 - y ( i ) ) h θ ( x ( i ) ) h θ ( x ( i ) ) ( 1 - h θ ( x ( i ) ) ) * \partial h θ ( x ( i ) ) \partial θ j y ( i ) - h θ ( x ( i ) ) h θ ( x ( i ) ) ( 1 - h θ ( x ( i ) ) ) * \partial h θ ( x ( i ) ) \partial θ j

其中

hθ(x)=11+e−θTx ，为了简化显示，这里省略x的上标i，所以：

\partial h θ ( x ) \partial θ j = = = = = - (1 + e - θ T x) - 2 * e - θ T x * (- x) e - θ T x ( 1 + e - θ T x ) 2 * x 1 + e - θ T x - 1 ( 1 + e - θ T x ) 2 * x (1 ( 1 + e - θ T x ) - 1 ( 1 + e - θ T x ) 2) * x h θ (x) * (1 - h θ (x)) * x

因此：

\partial l ( θ ) \partial θ j = = = y ( i ) - h θ ( x ( i ) ) h θ ( x ( i ) ) ( 1 - h θ ( x ( i ) ) ) * \partial h θ ( x ( i ) ) \partial θ j y ( i ) - h θ ( x ( i ) ) h θ ( x ( i ) ) ( 1 - h θ ( x ( i ) ) ) * h θ (x (i)) * (1 - h θ (x (i))) * x (i) (y (i) - h θ (x (i))) * x (i)

我们是要求使得似然函数最大时的

θ ,所以使用梯度上升法：

θ j = θ j + (y (i) - h θ (x (i))) * x (i) (f o r e v e r y j)

得到优化后的

θ ,代入

hθ(x)=11+e−θTx ，以0.5为阈值进行分类。

阅读全文

0 0