ROC曲线,AUC,

来源：互联网发布：一个算法应具备的特性编辑：程序博客网时间：2024/05/17 18:41

在信号检测理论中，接收者操作特征曲线（receiver operating characteristic curve，或者叫ROC曲线）是一种座标图式的分析工具，

用途（1），选择最佳的分类模型（2），同一模型中选择最佳阈值

那是怎么达到这一目的的呢？

首先要了解几个概念。

真阳性TP，真阴性TN，伪阳性FP，伪阴性FN，伪阳性率（FPR），真阳性率（TPR）。

举个例子，比如你预测某只股票是上涨还是下跌，你说涨，实际真的涨了就是真阳性TP，但如果实际跌了，那就是伪阳性FP，反之，如果你预测跌了，实际真跌了就是真阴性TN，如果实际是涨了就是伪阴性FN，如果你预测了很多只股票，你预测涨的实际也涨了占实际真涨(包括你说准的和实际涨预测成跌的)的比值就是真阳性率（TPR），公式为TPR=TP/(TP+FN )。而本来跌的你预测成涨的占实际真跌的比较是伪阳性率，公式为FPR=FP/(FP+TN)。

ROC空间就建立在上述两个概念上的将伪阳性率（FPR）定义为 X 轴，真阳性率（TPR）定义为 Y 轴。这平面有什么特点呢？完美的预测是一个在左上角的点，在ROC空间座标 (0,1)点，X=0 代表着没有伪阳性，Y=1 代表着没有伪阴性（所有的阳性都是真阳性）；也就是说，不管分类器输出结果是阳性或阴性，都是100%正确。一个随机的预测会得到位于从 (0, 0) 到 (1, 1) 对角线（也叫无识别率线）上的一个点；最直观的随机预测的例子就是抛硬币

给出一个模型和阈值，在训练阶段，根据真实值和预测值就可以计算出FPR和TPR，而通过这一方式把模型和阈值映射成ROC空间的一个点，那么可以通过采用不同模型或者不同阈值，就可以得到ROC空间上一系列点了。这一系列的点怎么反应预测的效果呢？（见http://zh.wikipedia.org/wiki/ROC%E6%9B%B2%E7%BA%BF例子）通过拟合这些点就能够得到ROC空间上的一条曲线。那自然我们会想，这一曲线有什么规律，我们能从这一曲线得到哪些信息呢。

（1），对于不同分类器而言，测量标准等各个方面都不一样，所以得到的曲线没有规律可循。

（2）,同一分类器不同阈值呢？（http://zh.wikipedia.org/wiki/ROC%E6%9B%B2%E7%BA%BF）

既然不同分类器的曲线没有规律可循，那么曲线的其他特征是否可以利用。自然引出曲线下的面积

AUC因为是在1x1的方格里求面积，AUC必在0~1之间。

假设阈值以上是阳性，以下是阴性；

若随机抽取一个阳性样本和一个阴性样本，分类器正确判断阳性样本的值高于阴性样本之机率 =AUC。

简单说：AUC值越大的分类器，正确率越高。

从AUC判断分类器（预测模型）优劣的标准：

AUC = 1，是完美分类器，采用这个预测模型时，不管设定什么阈值都能得出完美预测。绝大多数预测的场合，不存在完美分类器。

0.5 <AUC < 1，优于随机猜测。这个分类器（模型）妥善设定阈值的话，能有预测价值。

AUC =0.5，跟随机猜测一样（例：丢铜板），模型没有预测价值。

AUC <0.5，比随机猜测还差；但只要总是反预测而行，就优于随机猜测。

0 0