机器学习之数据清理经验

来源：互联网发布：端口测试失败编辑：程序博客网时间：2024/06/06 09:40

文本类数据，尤其二分类，如果正反比悬殊（超过1：10），反例极容易出现包含正例的噪声（人工标注准确率95%）
1.这时，首先去除反例中和正例完全相同的误分类（比如新闻，就是标题；聊天数据就是去掉不可见字符后的文本）
2.视数据质量，也可以用一些高阈值的相似性比较方法，比如杰卡德，余弦，编辑距离等，再去除一部分噪声
3.训练好的分类器，在正例分类器中，按分类器的分值进行排序，头部的“误召回”通常是准确的正例识别，只是被人工标注误分为反例
下图是一张用fasttext做的二分类，识别为“正例”的数据随阈值变化分布。横轴为归一化的分值从大到小（Max=0），纵轴为阈值不断变小，召回的”正例”中正反例的数量变化，其中出现在头部区域，即阈值取较大数值时，依然“误分”的反例，极大概率是噪声（正例），可以人工针对进行清理。
这是一张用fasttext做的二分类，识别为“正例"的数据随阈值变化分布。横轴为归一化的分值从大到小（Max=0），纵轴为阈值不断变小，召回的"正例"中正反例的数量变化
4.同时上面的分类器，可以针对正负样本，哪一种质量更高，反过来对另一个类别有一定数据倾斜（比如由1：1配平，改为1；5，1：10）进行训练，那么高质量数据的是高召回，余下的误识别减少，这种情况下依然分类到正例的，尤其是头部区域，更大概率是噪声。

1 0