机器学习之-分类性能指标-准确率-召回率-ROC曲线

来源：互联网发布：linux 开启snmp 编辑：程序博客网时间：2024/05/17 07:18

1、最简单的分类性能指标就是错误率，即在所有测试样例中错分的样例比例。

2、在机器学习中有一个普遍适用的称为混淆矩阵的工具，它可以帮助人们更好地了解分类中的错误，比如一个三分类问题：

3、对于一个二分类，它的混淆矩阵比较简单：

在这个例子中，如果将一个正例预判为正例，则认为产生了一个真正例（True Positive：TP也称真阳），如果对一个反例预判为反例，则认为产生一个真反例（True Negative：TN，也称真阴），相应的另外两种情况分别称为伪反例（False Negative，FN，也称假阴）和伪正例（False Positive：FP，也称假阳）。

4、在分类中，当某个类别的重要性高于其他类别时，我们就可以利用上述定义来定义出多个比错误率更好的新指标：

a）准确率（正确率）：它等于TP/(TP+FP)，给出的是预测为正例的样本中（有的是负例却被预测为正例）真正是正例的占比为多少。

b）召回率（召回率）：它等于TP/(TP+FN)，给出的是预测为正例的正样本占所有正样本的比例。

注意：构造一个高正确率或者高召回率的分类器很容易，但是很难同时保证两者成立。

c）ROC曲线：

其中横坐标是假阳率：FP/(FP+TN)，竖坐标是真阳率：TP/(TP+FN)，ROC曲线给出的是当阈值变化时假阳率和真阳率的变化情况，左下角的点所对应的是将所有样例判为反例的情况，而右上角的点对应的则是将所有样例判断为正例的情况，上图虚线给出的是随机猜测的结果曲线。

ROC曲线不但可以用于比较分类器，还可以基于成本效益分析来做出决策。在理想情况下，最佳的分类器应该尽可能地处于左上角，这就意味着分类器在假阳率很低的同时获得了很高的真阳率。

举例来说：在垃圾邮件的过滤中，这就相当于过滤了所有的垃圾邮件，但没有将任何合法邮件误识为垃圾邮件。

对不同的ROC曲线进行比较的一个指标是曲线下的面积（AUC），AUC给出的是分类器的平均性能值，完美分类器的AUC为1.0，随机猜测的AUC为0.5。

5、为了画出ROC曲线，分类器必须提供每个样例被判为阳性或者阴性的可信程度值。

参考文章：

https://www.douban.com/note/284051363/?type=like

0 0