过拟合

来源：互联网发布：matlab 把矩阵归一化编辑：程序博客网时间：2024/04/28 10:12

过拟合的根本原因是信息太少。

信息可以从两方面得到。

一是先验的假设。假设线性可分和假设n次多项式可分相比，前者假设了我们拥有了更多的信息。

二是样本。一般来说，样本越多提供的信息越多。不过如果样本并不是随机抽取的，则样本多也不能代表信息多。比如分类中可以找多个特殊的点，这些点是最优分类器分错的点，用这些点来分类，效果会出奇的差。因为我们得到的全部是负信息。这里的负信息和前面的正信息（先验假设）相乘，如果先验假设更多些（比如线性分类），这得出的结果会更差，反而过拟合会好些，但这也好不过随机猜测。

对于样本选取，怎样的数据才具有最大的正信息？支持向量机中的支持向量就是具有最大正信息的，虽然很少，只需要两个数据点，就可以达到最好的分类效果。

实际的采样中，大多数样本具有正的信息，少量样本具有负信息。去噪就是去除负信息。