样本不均衡(2)

来源：互联网发布：怀化网络推广总监招聘编辑：程序博客网时间：2024/04/30 22:44

不均衡数据集的分类问题是机器学习和模式识别领域的研究热点，是对传统分类的重大挑战

Reference：http://blog.csdn.net/yelbosh/article/details/48375363

1. 重构数据集(重采样/重抽样/重取样)

过样本：增加少数类的样本来提高少数类的分类性能。

简单方法：随机复制少数类样本

改进方法：SMOTE算法; Borderline-SMOTE

欠样本：减少多数类的样本来提高少数类的分类性能。

简单方法：随机去掉某些多数类样本来减少多数类的规模。

改进方法：Condensed Nearest Neighbor Rule; Neighborhood Cleaning Rule; One sided Selection; Tomek Links等【有选择去掉对分类作用不大，远离分类边界或引起数据重叠的多数类样本】

2. 改进分类算法

代价敏感学习【困难，效果有时不明显】：调整样本分布；元代价方法；代价敏感决策

支持向量机(SVM)：对正类和负类赋予不同的代价，作为SVM的惩罚因子；对支持向量进行裁剪，通过适当牺牲多数类的分类精度来提高少数类的精度。

单类学习分类

组合方法：多个分类器组合成一个分类器。AdaBoost是提升算法的代表，给训练集数据的分布迭代加权。改进的算法还有AdaCost; RareBoost算法。

0 0