CUSBoost:基于聚类的提升下采样的非平衡数据分类
来源:互联网 发布:star打印机打印端口 编辑:程序博客网 时间:2024/06/18 12:11
原论文地址:CUSBoost: Cluster-based Under-sampling with Boosting for Imbalanced Classification
Abstract
普通的机器学习方法,对于非平衡数据分类,总是倾向于最大化占比多的类别的分类准确率,而把占比少的类别分类错误,但是,现实应用中,我们研究的问题,对于少数的类别却更加感兴趣。最近,处理非平衡数据分类问题的方法有:采样方法,成本敏感的学习方法,以及集成学习的方法。这篇文章中,提出了一种新的基于聚类的欠采样boosting方法,CUSBoost,它能够有效地处理非平衡数据分类问题。RUSBoost(random under-sampling with AdaBoost) 和SMOTEBoost (synthetic minority over-sampling with AdaBoost) 算法,在我们提出的算法中作为可选项。经过实验,我们发现CUSBoost算法在处理非平衡数据上能够达到state-of-art的表现,其表现优于一般的集成学习方法。
Introduction
处理非平衡类别问题的方法一般被分为两类:外部(对非平衡数据进行处理得到平衡的数据)、内部(通过降低非平衡类别数据的灵敏度来改变已有的学习算法)的方法。
而CUSBoost的处理方法是:首先把数据分开为少数类别实例和多数类别实例,然后使用K-means算法对多数类别实例进行聚类处理,并且从每个聚类中选择部分数据来组成平衡的数据。聚类的方法帮助我们在多数类别数据中选择了差异性更大的数据(同一个聚类里面的数据则选择的相对较少),比起那些随机采样的方法(随机丢弃多数类别的数据)。CUSBoost combines the sampling and boosting methods to form an efficient and effective algorithm for class imbalance learning.
Related work
Sun等人提出的处理非平衡的二分类问题的方法,首先将大多数类别数据随机分组,每个组内的数据数量和少数类别的数据数量相近。然后由多数类每个组的数据加少数类数据进而组成平衡的数据样本。
Chawla 等人提出一种过采样方法SMOTE,对少数类别数据进行over-sample,不同之处在于,采样的数据是由少数类别数据合成而来。它通过操作特征空间而不是数据空间来合成少数类别的数据(使用KNN)。
Seiffert等人给出的结合Adaboost的随机欠采样方法RUSBoost,RUS减少多数类别的数据组成平衡数据(结合Adaboost)。
CUSBoost Algorithm
CUSBoost是聚类采样和Adaboost方法的结合:
聚类采样:把多数类数据和少数类数据分开,在多数类数据中,使用K-means算法将其分为
算法伪代码:
解释一下:步骤三是每一次都实行一次欠采样(对事先已经利用K-means方法得到的K个聚类),组成平衡的数据。
My views
本文提出的算法关键点在于基于聚类的欠采样方法(K-means),然后就是结合Adaboost算法来得到最后的模型。文章后面也给出了实验测试结果,有兴趣的可以看一下,可以得到一下几个结论:
- 总体相比
RUSBoost
和SMOTEBoost
来说,该方法分类性能具有显著优越的效果;- 正是基于聚类的采样方法,导致了如果数据的特征空间非常适合聚类的时候,该方法将表现地较好。否则,可能需要尝试其他方法了;
- 该算法结合了
Adaboost
,其实用其他算法模型来代替也不是不可以的,比如当前很火的Xgboost
。
- CUSBoost:基于聚类的提升下采样的非平衡数据分类
- 如何训练非平衡数据的分类器
- SMOTE非平衡数据重采样方法
- 非均衡数据集的分类问题
- 非均衡数据集的分类问题
- 非平衡数据集的机器学习常用处理方法
- 非平衡数据集的机器学习常用处理方法
- 采样到分类预测的整个流程
- 基于BP神经网络的数据分类
- 基于BP神经网络的数据分类
- 【数据挖掘】基于决策树的分类
- 基于鸢尾花数据的分类分析
- 基于朴素贝叶斯分类器的文本分类(下)
- 基于STC15单片机的DHT11采样
- 基于Python 的语音重采样函数
- 基于多项式拟合的法线估计、点云平滑和数据重采样
- 应对非均衡数据集分类问题的八大策略
- 基于Keras的imdb数据集的情感二分类
- Qt之QSS语法样式及编辑器
- Markdown编辑器测试2
- 在flask中使用jsonify和json.dumps的区别
- springmvc拦截器面对ajax时的处理
- 49. Group Anagrams
- CUSBoost:基于聚类的提升下采样的非平衡数据分类
- codeforces 344A Magnets
- Hibernate之集合配置
- 图像金字塔
- java数据类型
- UML图
- sql server 文件类型
- Stm32F4 4.3寸TFTLCD 硬件部份
- sql语句报错总结