机器学习第三周（三）--正则化

来源：互联网发布：win10网络时间同步编辑：程序博客网时间：2024/06/16 11:46

过拟合与欠拟合
正则化
- Regularized linear regression
- Normal Equation
- Regularized logistic regression

过拟合与欠拟合

三幅图片

第一幅图片能看到模型能大致拟合数据，但效果不是很好；第二幅相比效果就好很多；第三幅图片也能很好的拟合当前数据，但是预测数据效果不行。我们将第一幅图片中的现象称为“欠拟合”（ underfitting）也叫“高偏差”（high bias），第三幅中的现象称作“过拟合”（overfitting）也叫“高方差”（high variance）。图片2中的模型是我们最好的结果。比较一下欠拟合和过拟合。

欠拟合过拟合特征太少，导致模型太简单不能很好拟合数据特征太多，模型太过复杂，能很好拟合当前数据但预测数据效果差解决办法增加特征，使模型变得复杂减少特征数量，或者正则化

欠拟合和过拟合现象在线性回归和逻辑回归中都可能出现，下面给出俩中解决过拟合现象的具体方法
这里写图片描述
其中使用正则化主要分为减小θ 的大小和挑选更有用的特征。

正则化

对比图
左边的模型是我们想要的结果，为了改善右边的过拟合现象，对θ3 和θ4 项做平方处理，这时θ3 和θ4 近似0，这就能极大减小原假设函数中后俩项的影响，模型也就等同左边模型。
按照这种思想，我们得到损失函数一般式：

λ 称正则参数（regularization parameter），注意λ 如果取得过大，那么θ 项接近于0，这样假设函数模型就会过于简单，又会陷入到欠拟合中。