过拟合

来源:互联网 发布:matlab 把矩阵归一化 编辑:程序博客网 时间:2024/04/28 10:12

过拟合的根本原因是信息太少。

信息可以从两方面得到。

一是先验的假设。假设线性可分和假设n次多项式可分相比,前者假设了我们拥有了更多的信息。

二是样本。一般来说,样本越多提供的信息越多。不过如果样本并不是随机抽取的,则样本多也不能代表信息多。比如分类中可以找多个特殊的点,这些点是最优分类器分错的点,用这些点来分类,效果会出奇的差。因为我们得到的全部是负信息。这里的负信息和前面的正信息(先验假设)相乘,如果先验假设更多些(比如线性分类),这得出的结果会更差,反而过拟合会好些,但这也好不过随机猜测。

对于样本选取,怎样的数据才具有最大的正信息?支持向量机中的支持向量就是具有最大正信息的,虽然很少,只需要两个数据点,就可以达到最好的分类效果。

实际的采样中,大多数样本具有正的信息,少量样本具有负信息。去噪就是去除负信息。

原创粉丝点击