机器学习之数据清理经验
来源:互联网 发布:端口测试失败 编辑:程序博客网 时间:2024/06/06 09:40
文本类数据,尤其二分类,如果正反比悬殊(超过1:10),反例极容易出现包含正例的噪声(人工标注准确率95%)
1.这时,首先去除反例中和正例完全相同的误分类(比如新闻,就是标题;聊天数据就是去掉不可见字符后的文本)
2.视数据质量,也可以用一些高阈值的相似性比较方法,比如杰卡德,余弦,编辑距离等,再去除一部分噪声
3.训练好的分类器,在正例分类器中,按分类器的分值进行排序,头部的“误召回”通常是准确的正例识别,只是被人工标注误分为反例
下图是一张用fasttext做的二分类,识别为“正例”的数据随阈值变化分布。横轴为归一化的分值从大到小(Max=0),纵轴为阈值不断变小,召回的”正例”中正反例的数量变化,其中出现在头部区域,即阈值取较大数值时,依然“误分”的反例,极大概率是噪声(正例),可以人工针对进行清理。
4.同时上面的分类器,可以针对正负样本,哪一种质量更高,反过来对另一个类别有一定数据倾斜(比如由1:1配平,改为1;5,1:10)进行训练,那么高质量数据的是高召回,余下的误识别减少,这种情况下依然分类到正例的,尤其是头部区域,更大概率是噪声。
1 0
- 机器学习之数据清理经验
- 面试经验分享之机器学习、大数据问题
- 机器学习小组知识点24:数据预处理之数据清理(Data-Cleaning)
- 吴恩达机器学习之经验风险最小化
- 机器学习之数据集
- 机器学习、大数据面试经验分享、答题思路
- 机器学习、大数据面试经验分享、答题思路
- R语言学习之数据的清理和转化
- 【斯坦福---机器学习】复习笔记之经验风险最小化
- opencv2机器学习经验记录之cascade分类器训练
- (斯坦福机器学习笔记)之经验风险最小化
- 数据科学之机器学习1:简介
- 数据科学之机器学习7: 决策树
- 机器学习预处理之数据值缺失
- 数据挖掘/机器学习 之 开新坑
- 数据挖掘/机器学习 之 聚类
- 数据挖掘/机器学习 之 距离测度
- 数据挖掘/机器学习 之 面试总结
- Spark分析之Worker
- css sprites(CSS 精灵):如何获取一张集成拼合图片上的其他图片
- 编写规范化JavaScript代码的方法总结
- 面试
- 谈了这么久的Project Tango?我们终于把它讲清楚
- 机器学习之数据清理经验
- maven的介绍和安装
- Spark分析之Master、Worker以及Application三者之间如何建立连接
- 解析大小端及其判断
- TabLayout+viewPager
- 冒泡排序简单分析!!
- Docker踩坑
- Dubbo中编码和解码的解析
- Faster RCNN roi_pooling_layer.cpp roi_pooling_layer.cu