机器学习之数据清理经验

来源:互联网 发布:端口测试失败 编辑:程序博客网 时间:2024/06/06 09:40

文本类数据,尤其二分类,如果正反比悬殊(超过1:10),反例极容易出现包含正例的噪声(人工标注准确率95%)
1.这时,首先去除反例中和正例完全相同的误分类(比如新闻,就是标题;聊天数据就是去掉不可见字符后的文本)
2.视数据质量,也可以用一些高阈值的相似性比较方法,比如杰卡德,余弦,编辑距离等,再去除一部分噪声
3.训练好的分类器,在正例分类器中,按分类器的分值进行排序,头部的“误召回”通常是准确的正例识别,只是被人工标注误分为反例
下图是一张用fasttext做的二分类,识别为“正例”的数据随阈值变化分布。横轴为归一化的分值从大到小(Max=0),纵轴为阈值不断变小,召回的”正例”中正反例的数量变化,其中出现在头部区域,即阈值取较大数值时,依然“误分”的反例,极大概率是噪声(正例),可以人工针对进行清理。
这是一张用fasttext做的二分类,识别为“正例"的数据随阈值变化分布。横轴为归一化的分值从大到小(Max=0),纵轴为阈值不断变小,召回的"正例"中正反例的数量变化
4.同时上面的分类器,可以针对正负样本,哪一种质量更高,反过来对另一个类别有一定数据倾斜(比如由1:1配平,改为1;5,1:10)进行训练,那么高质量数据的是高召回,余下的误识别减少,这种情况下依然分类到正例的,尤其是头部区域,更大概率是噪声。

1 0
原创粉丝点击