样本不均衡问题--过拟合欠拟合抽样

来源:互联网 发布:下载农村淘宝网 编辑:程序博客网 时间:2024/04/28 21:41
过抽样就是在样本很少的时候,添加或者复制样本,比如两类样本分别为100个A类和10个B类,那么为了保证A,B这两类样本平衡,可以复制B类使得样本和A类一样。方便分类器分类。
欠抽样就是将A的样本减少到和B类一样。
从表面上看过抽样和欠抽样技术在功能上似乎是等价的,因为他们都能改变原始数据集的样本容量并且能够获得一个相同比例的平衡(处理样本不均衡问题的方法)。但是,这个共同点是表面现象,这两种方法都会产生不同的降低分类器学习能力的负面效果。
对于欠抽样,将多数类样本删除有可能导致分类器丢失有关多数类的重要信息。
对于郭朝阳,虽然只是简单的将复制后的数据添加到原始数据集合中,并且某些样本的多个实例都是‘并列的’,但这样也可能会导致分类器出现过拟合现象。
0 0