Coursera ML笔记 --- week1:单变量的线性回归+梯度下降法

来源：互联网发布：mac pro 验证码编辑：程序博客网时间：2024/06/08 06:39

欢迎点击作者原文地址
week1:单变量的线性回归+梯度下降法
2017/3/7

week1
supervise learing
监督学习分为两类：分类和回归
分类是将输入变量（feature/attribute）映射成为离散的输出结果，回归是将输入变量映射成为连续的输出结果

2017/3/8 cost function

cost fuction 就是squared error function ,如果把y看作是一个变量的话，那就squared error其实就是它的方差（借此理解）。cost function 就是一半的SEF

J (θ 0, θ 1) = 1 2 m \sum i = 1 m (y^- y i) 2 = 1 2 m \sum i = 1 m (h θ (x (i) - y (i)) 2

hypothesisfunction vs costfunction
hypothesi function hθ1(x) 是x的函数，θ是固定的
cost function J(θ1) 是θ1的函数

2017/3/9 Gradient Descent
梯度下降法，来寻找使得目标函数最小的参数

m i n θ 0, θ 1 J (θ 0, θ 1)

a. 寻找到的是局部最优解,初始值不同，得到的最小值也可能不同。不过在线性回归中，因为cost function 是一个bowl shape(convex shape)，所以找到的总是全局最优。注意，仅在linear regression!!
b.
repeat {

θ j : = θ j - α \partial J ( θ 0 , θ 1 ) \partial θ j

}
其中，

α是一个learing rate (理解为下降的幅度)
c. 参数一定是同时变化的，simutineously update
temp0 :=

θ0−α∂J(θ0,θ1)∂θ0
temp1 :=

θ1−α∂J(θ0,θ1)∂θ1

θ0:=temp0

θ1:=temp1
d. 对于learning rate

α来说，有这么几点需要注意：首先，不能取得太大，太大会overshoot，偏离最小值（越小则速度越慢）。其次，

α不用变动，取固定值即可。因为越靠近斜率就越小（右边部分），偏导部分

∂J∂α是一直在变小的，或者说是不断地向0靠拢。最后，当初始值就在最小值处事，偏导为0，参数经过迭代也不会产生变化。

0 0