机器学习笔记(X)线性模型(VI)类别不平衡问题

来源:互联网 发布:用友软件销售 编辑:程序博客网 时间:2024/05/24 02:40

类别不平衡问题

分类学习方法的问题

假设正类和反类的样例数目相当,但是有时候样例数量的差别较大,比如正例样本有998个,而反例样本只有2个,此时学习方法如果一直返回正例则预测的准确度会高达99.8%,但是这样的学习器没有任何价值。

类别不平衡的定义

class-imbalance是指分类任务中不同类别的训练样例的数目差别非常大的情况

假设

假定正类样本较少,反类样本较多

处理方法

从线性分类器的角度讨论,在使用y=wTx+b对新样本进行分类的时候,实际上是在用预测出的y值和一个阈值进行比较,通常在y>0.5时判为正例,否则为反例。

关于y

y实际上表达了正例的可能性,几率y1y反应了正例可能性和反例可能性的比值,此时阈值0.5表明了分类器认为真实正、反例可能性相同,

决策规则

y1y>1
则预测为正例,反之为反例。

类别不平衡的处理

观测几率:m+m

m+表示正例数目
m表示反例数目

此时决策规则改为:

y1y>m+m
则预测为正例,反之为反例。

采样

假定正类样本较少,反类样本较多

欠采样

减少多的,这里除去一些反例样本,使得正反例样本数量接近

过采样

增加少的,这里增加一些正例样本,使得正反例样本数量接近

基于原始训练集

对样本数量不做处理,保持原状,
使用再缩放策略,
再缩放

y1y=y1y×mm+

将上式嵌入到决策过程中。

原创粉丝点击