16如何处理不均衡数据
来源:互联网 发布:import 引入js 编辑:程序博客网 时间:2024/06/13 03:59
类别不平衡问题也成类偏斜,实质分类任务中不同类别的训练样例数目差别很大的情况。
那当我们遇到类别不均衡问题的时候应该怎么处理呢。这里给出了集中处理手段.
1、获取更多数据
己还能不能获取到更多的数据. 有时候只是因为前段时期的数据多半呈现的是一种趋势, 等到后半时期趋势又不一样了. 如果没有获取后半时期的数据, 整体的预测可能就没有那么准确了.
2、更换评判标准
我们会用到 准确率 accuracy, 或者误差 cost来判断机器学习的成果. 可是这些评判方法在不均衡数据面前, 高的准确率和低的误差变得没那么重要. 所以我们得换一种方式评判. 通过 confusion matrix 来计算 precision 和 recall, 然后通过 precision 和 recall 再计算f1 分数.这种方式能成功地区分不均衡数据, 给出更好的评判分数.
3、重组数据
重新组合不均衡数据, 使之均衡. 方式一: 复制或者合成少数部分的样本, 使之和多数部分差不多数量. 方式二: 砍掉一些多数部分, 使两者数量差不多.
4、使用其他机器学习算法
一般决策树算法不受类别不均衡问题的影响
5、修改算法
如果你用的是 Sigmoid 的激励函数, 它会有一个预测门槛, 一般如果输出结果落在门槛(比如0)的这一段,预测结果为梨, 如果落在这一段, 预测结果为苹果, 不过因为现在的梨是多数派, 我们得调整一下门槛的位置, 使得门槛偏向苹果这边, 只有很自信的时候, 模型才会预测这是苹果. 让机器学习,学习到更好的效果.
阅读全文
0 0
- 16如何处理不均衡数据
- 如何处理分类中的训练数据集不均衡问题
- 不均衡数据的处理方法
- 处理数据不均衡的策略
- 6个处理数据不均衡的策略
- 深度学习-- 处理不均衡数据的方法
- 分类中的训练数据集不均衡问题处理
- 使用imbalanced-learn处理数据不均衡问题
- 如何处理训练样本不均衡的问题
- 网卡中断不均衡处理
- 样本不均衡的常见处理方法
- 样本不均衡的一些处理技巧
- 数据分布不均衡导致性能问题
- 连续值、缺失值 、正负样本不均衡处理方法
- 如何处理海量数据
- 如何处理海量数据
- 如何处理海量数据
- 如何处理海量数据
- Java并发编程与技术内幕:消费者-生产者模式研究
- 百度地图API去获取当前用户地理位置,不过一般都不能很精确的,百度地图的定位都是有偏移量的。
- ubuntu so make
- svn服务器配置
- 七牛云上传--官方JSDK与photoClip截图Base64编码
- 16如何处理不均衡数据
- 用例图、类图与时序图的关系
- 教你解决Android Studio无法查看源码
- HBase中应该如何合理设置客户端Write Buffer
- js声明函数(function)和变量(variable)不得不防的坑
- 表空间、段、区、块
- Python爬虫学习(二)用到的数据结构
- 算法_随机算法1_入门引例(根据随机数求圆周率pi)
- vue .sync 修饰符