斯坦福公开课Machine Learning笔记(一)--Linear Regression

来源：互联网发布：淘宝网店需要交税吗编辑：程序博客网时间：2024/05/01 09:00

斯坦福公开课Machine Learning笔记(一)–Linear Regression

这系列笔记其实已经手写好, 现在一次性发上来, 主要是怕丢. 内容以Andrew Ng的讲义为主,主要以公式推导与理解为主,引入和介绍省略.对于最后的Reinforcement Learning部分, 由于没有讲义以及对其实在不熟悉, 就没有笔记了(主要还是因为没有讲义).

机器学习的定义:

对于某个任务T,某个程序有了评测方法P,如果在经验E的影响下,P对T的测量结果得到了改进,那就说明程序从E中学习到了.

一.Linear Regression

训练集:S={(x(1),y(1)),(x(2),y(2)),...,(x(m),y(m))}
预测函数: $h θ (x) = θ 0 + θ 1 x$
改写成向量: $h θ (x) = \sum i = 1 n θ T x$
其中x中增加了一项常数项1
Lost Function: $J (θ) = 1 2 \sum i = 1 n (h θ (x (i)) - y (i)) 2$
这里的代价函数使用的是最小二乘.(那为何是平方呢?后面会有解释)

1. Least mean squares algorithm

θ j : = θ j - α \partial \partial θ j J (θ)

其中

α为学习速率.

\partial \partial θ j J (θ) = \partial \partial θ j 1 2 \sum i = 1 m (h θ (x (i)) - y (i)) 2 = (\sum i = 1 m h θ (x (i)) - y (i)) \times \partial \partial θ j \sum i = 1 m (h θ (x (i)) - y (i)) = (h θ (x) - y ⃗) x j

使用梯度下降法(batch gradient descent)来最小化代价函数:
Repeat until convergence{

θ j : = θ j - α (h θ (x) - y) x j

}
梯度下降法在机器学习中是非常常见的优化算法, 但是每次更新参数

θ 都需要完整跑一边训练集,当在数据量很大时, 效率会很低,尤其在深度学习中.所以就又有了随机梯度算法和minibatch gradient descent.

随机梯度下降法:
Loop{
for i=1 to m{

θ j : = θ j - α (h θ (x (i)) - y (i)) x (i) j (for every j)

}
}
随机梯度算法的效率会比梯度下降算法提高很多,他会在其中某几步不是向着最小误差的方向,但是总体方向是向着最小值的.然而随机梯度下降法很可能无法到达最小值,只能在最小值附近徘徊.

batch gradient descent 和minibatch gradient descent的区别其实就是在,batch是一次训练一整个训练集, 而minibatch是一次训练部分训练集.在一定程度上保证了准确性,同时提高了效率.

2.The normal equations

使用梯度下降法需要不断迭代来得到最后的参数, 而 the normal equations可以一次求出θ,在某些数据集比较少的情况下, 效果比较好.

首先把训练集向量化:

X = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ x (1) T x (2) T ⋮ x (m) T ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥

y = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ y (1) y (2) ⋮ y (m) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥

所以:

x θ - y = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ x (1) T θ - y (1) x (2) T θ - y (2) ⋮ x (m) T θ - y (m) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

∵zTz=∑iz2i

∴J(θ)=12∑mi=1(hθ(x)(i)−y(i))2=12(Xθ−y)T(Xθ−y)

∴ \partial \partial θ J (θ) = \partial \partial θ 1 2 (x T θ - y) T (x T θ - y) = \partial \partial θ 1 2 (θ T X T X θ - θ T x y - y T X θ + y T y) = 1 2 \partial \partial θ t r (θ T X T X θ - θ T x y - y T X θ + y T y) (括 号 内 都 是 实 数,tr 后 还 是 本 身 不 变, 然 后 运 用 tr 的 性 质) = 1 2 \partial \partial θ (t r (θ T X T X θ) - 2 t r (y T X θ)) (t r A = t r A T, y T y 中 没 有 θ) = 1 2 (X T X θ + X T X θ - 2 X T y) (∵ 令 A T = θ, \partial \partial A t r (A B) = B T, B = B T = X T X, \partial \partial A T t r A B A T C = B T A T C + B A T C, \partial \partial A t f (A) = (\partial \partial A f (A)) T) = X T X θ - X T y = 0 (求 极 值 令 导 数 为 0)

∴XTXθ=XTy

∴θ=(XTX)−1XTy

3.Probabilistic interpretation

对于线性回归中,为什么J(θ)中使用的是LMS而不是其他次幂? 其实有其概率解释:

y (i) = θ T x (i) + ϵ (i)

其中

ϵ(i)是我们对未考虑的特征的描述,其实就是误差了.且假设其独立并且服从

N(0,σ2).

∴P(ϵ(i))=12π√σexp(−(ϵ(i))22σ2)

∴P(y(i)|x(i);θ)=12π√σexp(−(y(i)−θTx(i))22σ2)
即

y(i)|x(i);θ服从N(θx(i),σ2)

∴似然函数:

L (θ) = \prod i = 1 m P (y (i) | x (i); θ) = \prod i = 1 m 1 2 π - - \sqrt σ e x p (- ( y ( i ) - θ T x ( i ) ) 2 2 σ 2)

∴对数似然函数:

l (θ) = log L (θ) = log \prod i = 1 m 1 2 π - - \sqrt σ e x p (- ( y ( i ) - θ T x ( i ) ) 2 2 σ 2) = \sum i = 1 m log (1 2 π - - \sqrt σ e x p (- ( y ( i ) - θ T x ( i ) ) 2 2 σ 2)) = m log 1 2 π - - \sqrt σ - 1 σ 2 1 2 \sum i = 1 m (y (i) - θ T x (i)) 2

最大化

l(θ) 其实就是最小化

12∑mi=1(y(i)−θTx(i))2,其中

σ 其实并不影响

4.Locally weighted linear regression

在线性回归中很容易出现过拟合的现象.因为要拟合全部的样本比较难,所以可以考虑拟合局部样本:
1. minθ∑iw(i)(y(i)−θTx(i))2
2. output:θTx
其中w(i) 为样本的权重, w(i)=exp(−(x(i)−x)22τ2).这个公式与高斯函数有些类似,但是并没有关系.
局部加权线性回归是非参算法,预测时需要训练集临时训练出θ ,再进行预测,与KNN类似.

1 0