斯坦福大学机器学习-有关与过拟合问题

来源:互联网 发布:五子棋雾化器做丝数据 编辑:程序博客网 时间:2024/06/08 18:35

1)  The Problem of Overfitting(过拟合问题)

拟合问题举例-线性回归之房价问题:

a) 欠拟合(underfit, 也称High-bias)

欠拟合-我爱公开课-52opencourse.com

b) 合适的拟合:

拟合问题-我爱公开课-52opencourse.com

c) 过拟合(overfit,也称High variance)

过拟合-我爱公开课-52opencourse.com

什么是过拟合(Overfitting):

如果我们有非常多的特征,那么所学的Hypothesis有可能对训练集拟合的非常好(),但是对于新数据预测的很差。

过拟合例子2-逻辑回归:

与上一个例子相似,依次是欠拟合,合适的拟合以及过拟合:

a) 欠拟合

逻辑回归欠拟合-我爱公开课-52opencourse.com

b) 合适的拟合

逻辑回归合适的拟合-我爱公开课-52opencourse.com

c) 过拟合

逻辑回归过拟合-我爱公开课-52opencourse.com

如何解决过拟合问题:

首先,过拟合问题往往源自过多的特征,例如房价问题,如果我们定义了如下的特征:

特征选择-我爱公开课-52opencourse.com

那么对于训练集,拟合的会非常完美:

房价问题过拟合-我爱公开课-52opencourse.com

所以针对过拟合问题,通常会考虑两种途径来解决:

a) 减少特征的数量:

-人工的选择保留哪些特征;

-模型选择算法(之后的课程会介绍)

b) 正则化

-保留所有的特征,但是降低参数的量/值;

-正则化的好处是当特征很多时,每一个特征都会对预测y贡献一份合适的力量;

0 0
原创粉丝点击