数据挖掘中的ROC曲线

来源:互联网 发布:打击电信网络诈骗标语 编辑:程序博客网 时间:2024/05/16 06:58

基本术语

  •   真阳性(TP, true positive):预测为真,实际上也为真。
  •   伪阳性(TN, true negative):预测为真,实际却为假。
  •   真阴性(FP, false positive):预测为假,实际上也为假。
  •   伪阴性(FN, false negative):诊断为假,实际却为真。

1、真正率(TPR, true positive rate),即命中率

    TPR = TP / P = TP / (TP+FN)

2、假真正率(FPR, false positive rate),即错误命中率、假警报

     FPR = FP / N = FP / (FP + TN)

3、准确度(ACC, accuracy)

     ACC = (TP + TN) / (P + N)

 

roc空间

  ROC空间将伪阳性率(FPR)定义为 X 轴,真阳性率(TPR)定义为 Y 轴。也即是一个(0,0)到(1,1)的二维坐标空间。

例如:

  一个二元分类器,对于一个样本数为N的样本空间,每个样本x被预测为真(1)的概率为P(x)。即选择一个阈值P(0),

使得P(x)>P(0)的样本被预测为真(1),且样本数为m。而实际该样本空间中,表现为真(1)的个数为n。这样就得到,

TPR = m/n,FPR = (N-m)/(N-n),即在roc空间中,该点表示为(m/n,(N-m)/(N-n))。

 

roc曲线

根据上述描述关于roc空间的原理,通过改变不同的阈值P(k),k=0,1,2···k。根据

P(x)>P(k)得到m(k),即可得到点(m(k)/n,(N-m(k))/(N-n)),从而在roc空间里绘出roc曲线。