MLY -- 8.Establish a single-number evaluation metric for your team to optimize

来源:互联网 发布:张国荣演技 知乎 编辑:程序博客网 时间:2024/06/15 22:45

分类准确率(classification accuracy)是一个单数值的评价度量:将开发集(或测试集)输入分类器分类,分类器返回“被分类器正确分类的数据占输入数据集的比例”。如果分类器A获得97%的准确率,分类器B获得90%的准确率费,根据评价度量,分类器A较好。

与此不同的是,精度率和召回率(precision and recall)就不是一个单数值评价度量:它用两个数值去评价分类器。多数值评价度量使得比较分类算法时变得困难。假设你的分类算法表现如下:

classifier precision recall A 95% 90% B 98% 85%

这里,并不能直接看出两个分类器中哪个更好。

在实际开发过程中,你的团队将用不同的算法框架、模型参数、特征选择等。而使用单数值评价度量(如准确率)能快速地对这些算法的优劣做一个排序,从而看出哪一个算法更好。

如果你真的关心精确率和召回率,我建议你使用一种标准的方法将两种评价数值糅合成一个。例如,可取精确率和召回率的平均值作为评价数值;还可以取“F1 score”,F1 score是计算平均值的一种改进的方法,比取平均值的表现好多了。

classifier precision recall F1 score A 95% 90% 92.4% B 98% 85% 91.0%

单数值评价度量能让你从众多算法中快速选出哪个算法最优,它对众多算法进行偏好排序,因而明确了进展的方向。

最后,假设你分别在四个主要市场((i)US,(ii)China,(iii)India,(iv)其他)跟踪你的猫分类器准确率,因此你得到四个度量。对这四个度量取平均或加权平均值,你就会得到一个评价数值。取平均或加权平均是将多个度量变成一个的最常用的方法。

注释:

精确率和召回率:以猫图片分类器为例,精确率是指在分类器分类成猫的图片中,真的是猫图片的比例。召回率是指在开发集(或测试集)中的猫图片被分类器分类成猫图片的概率。在高准确率和高召回率间,经常需要权衡(tradeoff)。
F1 score: 如果你想了解更多,可以点击 https://en.wikipedia.org/wiki/F1_score。F1 score就是精确率和召回率的几何平均值,是这样计算的 2/((1/precision)+(1/recall))。

0 0
原创粉丝点击