http://www.cnblogs.com/pinard/p/5970503.html

来源:互联网 发布:自动编程 编辑:程序博客网 时间:2024/06/16 07:58

梯度下降法的代数方式描述

    1. 先决条件: 确认优化模型的假设函数和损失函数。

    比如对于线性回归,假设函数表示为 hθ(x1,x2,...xn)=θ0+θ1x1+...+θnxn, 其中θi (i = 0,1,2... n)为模型参数,xi (i = 0,1,2... n)为每个样本的n个特征值。这个表示可以简化,我们增加一个特征x0=1 ,这样hθ(x0,x1,...xn)=∑i=0nθixi

    同样是线性回归,对应于上面的假设函数,损失函数为:

           J(θ0,θ1...,θn)=12m∑i=0m(hθ(x0,x1,...xn)−yi)2

 

    2. 算法相关参数初始化:主要是初始化θ0,θ1...,θn,算法终止距离ε以及步长α。在没有任何先验知识的时候,我喜欢将所有的θ初始化为0, 将步长初始化为1。在调优的时候再 优化。

    3. 算法过程:

      1)确定当前位置的损失函数的梯度,对于θi,其梯度表达式如下:

        ∂∂θiJ(θ0,θ1...,θn)

      2)用步长乘以损失函数的梯度,得到当前位置下降的距离,即α∂∂θiJ(θ0,θ1...,θn)对应于前面登山例子中的某一步。

      3)确定是否所有的θi,梯度下降的距离都小于ε,如果小于ε则算法终止,当前所有的θi(i=0,1,...n)即为最终结果。否则进入步骤4.

      4)更新所有的θ,对于θi,其更新表达式如下。更新完毕后继续转入步骤1.

        θi=θi−α∂∂θiJ(θ0,θ1...,θn)

    下面用线性回归的例子来具体描述梯度下降。假设我们的样本是(x1(0),x2(0),...xn(0),y0),(x1(1),x2(1),...xn(1),y1),...(x1(m),x2(m),...xn(m),yn),损失函数如前面先决条件所述:

    J(θ0,θ1...,θn)=12m∑i=0m(hθ(x0,x1,...xn)−yi)2

    则在算法过程步骤1中对于θi 的偏导数计算如下:   

     ∂∂θiJ(θ0,θ1...,θn)=1m∑j=0m(hθ(x0j,x1j,...xnj)−yj)xij

    由于样本中没有x0上式中令所有的x0j为1.

    步骤4中θi的更新表达式如下:

           θi=θi−α1m∑j=0m(hθ(x0j,x1j,...xnj)−yj)xij

    从这个例子可以看出当前点的梯度方向是由所有的样本决定的,加1m 是为了好理解。由于步长也为常数,他们的乘机也为常数,所以这里α1m可以用一个常数表示。

原创粉丝点击