ROC曲线面积计算

来源:互联网 发布:暖气片不热 知乎 编辑:程序博客网 时间:2024/06/05 09:42

在binary classification model中,ROC或AUC作为一种常用的技术,有两个优点:不随真实情况的事件改变、不随分类错误的相对成本改变,因此当future incidents、relative cost of classification errors或两者都不稳定或未知时,ROC是很好的选择。

AUC的值在0.5-1之间,0.5表示完全不确定,分类随机,一般0.65-0.85之间表示模型较好。

建立binary classification model后,我们的目的是vary parameters to maximize ROC on a sample set with known outcome,这个set叫做training set。


一个计算ROC曲线面积的例子:


共有7个事件,对结果(0/1)预测,依次评分并从高到底排序。

从高于最高分到最低分依次为阈值,计算false positive rate(false positives/total negative)和true positive rate(true postives/total positive):


将false positive rate和true positive rate分别作为X轴和Y轴坐标,作图:


计算曲线下面积为0.917。

注意,每两个点之间只有横坐标或纵坐标移动,因为每一次下移阈值时,阈值以上为positive,要么对要么错,是将false negative重新分类为true positive或将true negative重新分类为false positive。

原创粉丝点击