机器学习笔记（X）线性模型(VI)类别不平衡问题

来源：互联网发布：用友软件销售编辑：程序博客网时间：2024/05/24 02:40

类别不平衡问题

假设正类和反类的样例数目相当，但是有时候样例数量的差别较大，比如正例样本有998个，而反例样本只有2个，此时学习方法如果一直返回正例则预测的准确度会高达99.8%，但是这样的学习器没有任何价值。

class-imbalance是指分类任务中不同类别的训练样例的数目差别非常大的情况

假定正类样本较少，反类样本较多

从线性分类器的角度讨论，在使用y=wTx+b对新样本进行分类的时候，实际上是在用预测出的y值和一个阈值进行比较，通常在y>0.5时判为正例，否则为反例。

y实际上表达了正例的可能性，几率y1−y反应了正例可能性和反例可能性的比值，此时阈值0.5表明了分类器认为真实正、反例可能性相同，

y 1 - y > 1

则预测为正例，反之为反例。

观测几率：m+m−

m+表示正例数目
m−表示反例数目

此时决策规则改为：

y 1 - y > m + m -

则预测为正例，反之为反例。

假定正类样本较少，反类样本较多

减少多的，这里除去一些反例样本，使得正反例样本数量接近

增加少的，这里增加一些正例样本，使得正反例样本数量接近

对样本数量不做处理，保持原状，
使用再缩放策略，
再缩放

y ' 1 - y ' = y 1 - y \times m - m +

将上式嵌入到决策过程中。

阅读全文

0 0