机器学习之-分类性能指标-准确率-召回率-ROC曲线

来源:互联网 发布:linux 开启snmp 编辑:程序博客网 时间:2024/05/17 07:18

1、最简单的分类性能指标就是错误率,即在所有测试样例中错分的样例比例。

2、在机器学习中有一个普遍适用的称为混淆矩阵的工具,它可以帮助人们更好地了解分类中的错误,比如一个三分类问题:


3、对于一个二分类,它的混淆矩阵比较简单:


在这个例子中,如果将一个正例预判为正例,则认为产生了一个真正例(True Positive:TP也称真阳),如果对一个反例预判为反例,则认为产生一个真反例(True Negative:TN,也称真阴),相应的另外两种情况分别称为伪反例(False Negative,FN,也称假阴)和伪正例(False Positive:FP,也称假阳)。

4、在分类中,当某个类别的重要性高于其他类别时,我们就可以利用上述定义来定义出多个比错误率更好的新指标:

a)准确率(正确率):它等于TP/(TP+FP),给出的是预测为正例的样本中(有的是负例却被预测为正例)真正是正例的占比为多少。

b)召回率(召回率):它等于TP/(TP+FN),给出的是预测为正例的正样本占所有正样本的比例。

注意:构造一个高正确率或者高召回率的分类器很容易,但是很难同时保证两者成立。

c)ROC曲线:


其中横坐标是假阳率:FP/(FP+TN),竖坐标是真阳率:TP/(TP+FN),ROC曲线给出的是当阈值变化时假阳率和真阳率的变化情况,左下角的点所对应的是将所有样例判为反例的情况,而右上角的点对应的则是将所有样例判断为正例的情况,上图虚线给出的是随机猜测的结果曲线。

ROC曲线不但可以用于比较分类器,还可以基于成本效益分析来做出决策。在理想情况下,最佳的分类器应该尽可能地处于左上角,这就意味着分类器在假阳率很低的同时获得了很高的真阳率。

举例来说:在垃圾邮件的过滤中,这就相当于过滤了所有的垃圾邮件,但没有将任何合法邮件误识为垃圾邮件。

对不同的ROC曲线进行比较的一个指标是曲线下的面积(AUC),AUC给出的是分类器的平均性能值,完美分类器的AUC为1.0,随机猜测的AUC为0.5。

5、为了画出ROC曲线,分类器必须提供每个样例被判为阳性或者阴性的可信程度值。

参考文章:

https://www.douban.com/note/284051363/?type=like

0 0