【CS229 Lecture notes, Andrew Ng 】阅读笔记(持续更新中...)

来源:互联网 发布:mac 手写 编辑:程序博客网 时间:2024/06/08 15:09

Linear Regression

LMS(least mean squares)

  • 在使用批梯度下降(batch gradient descent)最小化代价函数时,每个theta的更新是同步的。
  • 判断是否收敛是启发式的,即判断两次迭代的代价函数值的大小。
  • 代价函数是一个凸二次函数,只存在一个全局最优值,而不存在局部最优值 。
  • 在使用梯度下降时,每次迭代的步长会自动减小,因为梯度在减小。
  • 使用随机梯度下降可以解决批梯度下降迭代次数过多的问题,但将不会收敛到全局最小值
  • 将特征缩放到某个尺度内可以加快收敛的速度

The Normal Equation

  • 造成不可逆的原因可能是特征的个数比样本个数多或者存在两个“相同”的特征。

Probabilistic Interpretation

  • 预测值和真实值之间的误差服从高斯分布,原因是中心极限定理,总误差是由很多误差共同作用的结果。
  • 最小二乘法可由极大似然估计推导出,证明了其合理性。

Locally Weighted Linear regression

  • 局部加权线性回归思想是:训练集中与测试样本距离越近样本,占的权重越大。
  • 权重公式与高斯分布无关。
  • 线性回归求出theta的值后不用保留训练集,而局部加权线性回归需要保留全部的训练样本。

Classification and Logistic Regression

Logistic Regression

  • 梯度下降法用于寻找函数最小值,而梯度上升法用于寻找函数最大值。在线性回归中使用的是梯度下降,是最小化误差函数;在逻辑回归中使用梯度上升,是最大化似然函数。

The Perceptron Learning Algorithm

  • 将逻辑回归中的sigmoid函数替换threshold函数(只有0,1两个值),就是感知机算法,该算法无法像最小二乘法一样可以用概率解释。

Newton’s Method

  • 相比梯度上升法,牛顿法收敛速度更快,在逻辑回归中表现很好,但每次迭代的时候都需要求Hessian矩阵的逆,当特征个数比较多时,时间复杂度高。
1 0
原创粉丝点击