逻辑回归（代价函数，梯度下降） logistic regression--cost function and gradient descent

来源：互联网发布：游戏优化怎么做编辑：程序博客网时间：2024/05/17 09:07

逻辑回归（代价函数，梯度下降） logistic regression--cost function and gradient descent

对于有m个样本的训练集 $\left \{ \left ( x^{\left ( 1 \right )},y^{(1)} \right ),(x^{(2)},y^{(2)}),...,(x^{(m),y^{(m)}}) \right \}$ , $y\in \left \{ 0,1 \right \}$ 。在上篇介绍决策边界的时候已经介绍过了在logistic回归中的假设函数为： $h_{\theta}(x) = \frac{1}{1+e^{-\theta ^{T}x}}$ 。因此我们定义logistic回归的代价函数（cost function）为： $cost(h_{\theta}(x),y) = \left\{\begin{matrix} -log(h_{\theta}(x)) , y = 1\\ -log(1-h_{\theta}(x)), y = 0 \end{matrix}\right.$ , 下面来解释下这两个公式，先来看y=1时， $cost(h_{\theta}(x),y) = -log(h_{\theta}(x))$ ，画出 $-log(h_{\theta}(x))$ 的函数图像为：

从图中可以看出，y=1，当预测值 $h_{\theta}(x)=1$ 时，可以看出代价函数cost的值为0，这正是我们希望的。如果预测值 $h_{\theta}(x)=0$ 即 $p(y=1|x;\theta ) = 0$ ,意思是预测y=1的概率为0，但是事实上y=1，因此代价函数 $cost=\infty$ 相当于给学习算法一个惩罚。

同理我们也可以画出当y=0时，函数 $-log(1-h_{\theta }(x))$ 的图像：

同样也能看出上面y=1时介绍的那些信息，我就不再说了。

对于上面的代价函数， $J(\theta) = \frac{1}{m}\sum_{i=1}^{m}cost(h_{\theta}(x^{(i)}),y^{(i)})$ ,其中 $cost(h_{\theta}(x),y) = \left\{\begin{matrix} -log(h_{\theta}(x)) , y = 1\\ -log(1-h_{\theta}(x)), y = 0 \end{matrix}\right.$ 可以写成更加简洁的形式: $cost(h_{\theta }(x),y) = -ylog(h_{\theta }(x)) + [-(1-y)log(1-h_{\theta }(x))]$ ，这个公式更加简洁，可以看出，当y=1时，公式变为 $cost(h_{\theta}(x),y) = -log(h_{\theta}(x))$ ，当y=0时，公式变为 $-log(1-h_{\theta }(x))$ 与上面的公式完全等价。因此代价函数为： $\begin{array}{lcl} J(\theta) &=&\frac{1}{m}\sum_{i=1}^{m}cost(h_{\theta }(x^{(i)},y^{(i)}))\\ \\ &=& -\frac{1}{m}\sum_{i=1}^{m}[y^{(i)}log(h_{\theta }(x^{(i)})) + (1-y^{(i)})log(1-h_{\theta}(x^{(i)}))] \end{array}$

为了求解使 $J(\theta)$ 最小的参数 $\theta$ ，还是要用梯度下降(gradient descent)，即 $\begin{array}{lcl}\theta _{j} &=& \theta _{j} - \alpha \frac{\partial }{\partial \theta _{j}}J(\theta )\\\\ &=& \theta _{j} - \alpha \frac{1}{m}\sum_{i=1}^{m}(h_{\theta }(x^{(i)}) - y^{(i)})x_{j}^{(i)}\end{array}$ ,

看来其和线性回归中的梯度下降函数形式一模一样，但其实是不一样的，因为在logistic回归中 $h_{\theta}(x) = \frac{1}{1+e^{-\theta ^{T}x}}$ 。

为了让大家明白从公式 $\theta _{j} =\theta _{j} - \alpha \frac{\partial }{\partial \theta _{j}}J(\theta )$ 怎么推到公式 $\theta _{j} = \theta _{j} - \alpha \frac{1}{m}\sum_{i=1}^{m}(h_{\theta }(x^{(i)}) - y^{(i)})x_{j}^{(i)}$ 的，我把这个公式的求导过程写一下：

$\begin{array}{lcl} \because \frac{\partial }{\partial \theta _{j}}g(\theta ^{T}x^{(i)}) &=& \frac{\partial }{\partial \theta _{j}}\frac{1}{1+e^{-\theta ^{T}x^{(i)}}}\\\\ &=& \frac{e^{-\theta ^{T}x^{(i)}}}{(1+^{e^{-\theta ^{T}x^{(i)}}})^{2}}\frac{\partial }{\partial \theta _{j}}\theta ^{T}x^{(i)}\\\\ &=& g(\theta ^{T}x^{(i)})(1-g(\theta ^{T}x^{(i)}))x_{j}^{(i)}\\\\ \therefore \frac{\partial }{\partial \theta _{j}}J(\theta )&=&-\frac{1}{m}\sum_{i=1}^{m}[y^{(i)}(1-g(\theta ^{T}x^{(i)})) - (1-y^{(i)})g(\theta ^{T}x^{(i)})]x_{j}^{(i)}\\\\ &=& -\frac{1}{m}\sum_{i=1}^{m}(y^{(i)} - g(\theta ^{T}x^{(i)}))x_{j}^{(i)}\\\\ &=& \frac{1}{m}\sum_{i=1}^{m}(h_{\theta}(x^{(i)}) - y^{(i)}) \end{array}$

大家可以自己在纸上推推，对求导不熟悉的可以去补补高数上，微积分。

关于logistic回归里的代价函数和梯度下降就介绍到这。还有一些高级优化算法，如 conjugate gradient、BFGS和L-BFGS这些算法不需要手动选择学习率 $\alpha$ ，而且收敛的速度要远快于梯度下降。但是这些算法太过复杂，不太容易搞明白。

注意：再强调一下，写博客不容易，尤其编辑公式很花费时间。转载或者引用请注明原文作者和链接，尊重原创。最近发现有人公然复制博客当成自己的原创，这种行为不值得尊重。

1 0