CV领域的一些评价指标（持续更新）

来源：互联网发布：mac mini双系统切换编辑：程序博客网时间：2024/05/22 04:47

一：一些评价指标

对于cv领域来说，常使用以下指标表示评价一个检测或者分类方法的好坏
Precision: precision for a class is the number of true positives (i.e. the number of items correctly labeled as belonging to the positive class) divided by the total number of elements labeled as belonging to the positive class;

Recall: the number of true positives divided by the total number of elements that actually belong to the positive class;

二：Confusion Matrix

confusion-matrix

则有

p r e c i s i o n = t p t p + f p

r e c a l l = t p t p + f n

a c c u r a c y = t p + t n t o t a l

precision表示预测的正样例里面真实正样例的比例；
recall表示真实的正样例里面预测的正样例的比例；
accuracy表示所有样例里面预测正确的概率。

三：指标之间的关系以及我们的选择

3.1 Precison&Recall: 两者通常是负相关的。ituitively理解，为了使recall增大，可能把很大一部分的样例判断为正样例，但是这样一来预测的正样例里面真实的正样例的比例就会减少。这个并没有准确的公式证明。只是一般来说两者是负相关的。
单独给一对p-r值来说明某个分类器的好坏是毫无意义的，同理，通过两对p-r值来比较两个分类器算法的优劣也是毫无意义的。比如某一个分类器通过身高来区分一个人是不是好看，那么很显然，通过设置不同的threshold,对于同一组样例来说，得到的p-r值是不一样的，但实际上这两组p-r值对应的是同一个分类器算法。而我们也知道，这个分类器算法是不好的（怎么可以通过身高来判断一个人是否好看呢？）

3.2 为什么不用accuracy:accuracy单独使用是meaningless的，比如一个分类器只会把所有的样例分成负样例。那么当输入的样例全是负样例的时候，它的acc=100%，但是当输入的样例全部为正样例的时候，它的acc=0.一个合理的指标应该是：对于一个分类器，他在不同的输入情况下，这个指标的评价结果应该差不多。

3.3 P-R曲线

既然无法用单个的precision和recall表示一个分类器性能的好坏，我们可以用precision-recall对来表示，画出P-R 曲线，对于相同的precision，recall越大越好，这表示在相同的预测精度下，我能找到更多的正样例。对于相同的recall来说，precision越大越好，这表示在找到相同数量的正样例的情况下，我预判的精度更高。在P-R曲线上，表示为P-R曲线下的面积越大越好。

average precision:P-R曲线下的面积，表示的precision对recall的平均（自己从积分和平均定义理解），AP越大，表示分类器的性能越好。
mean average precision：对于很多个类别，每个类别都有自己的AP，因此mAP就是AP对所有类别求平均。

0 0