MLY -- 8.Establish a single-number evaluation metric for your team to optimize

来源：互联网发布：张国荣演技知乎编辑：程序博客网时间：2024/06/15 22:45

分类准确率(classification accuracy)是一个单数值的评价度量：将开发集（或测试集）输入分类器分类，分类器返回“被分类器正确分类的数据占输入数据集的比例”。如果分类器A获得97%的准确率，分类器B获得90%的准确率费，根据评价度量，分类器A较好。

与此不同的是，精度率和召回率（precision and recall）就不是一个单数值评价度量：它用两个数值去评价分类器。多数值评价度量使得比较分类算法时变得困难。假设你的分类算法表现如下：

classifier precision recall A 95% 90% B 98% 85%

这里，并不能直接看出两个分类器中哪个更好。

在实际开发过程中，你的团队将用不同的算法框架、模型参数、特征选择等。而使用单数值评价度量（如准确率）能快速地对这些算法的优劣做一个排序，从而看出哪一个算法更好。

如果你真的关心精确率和召回率，我建议你使用一种标准的方法将两种评价数值糅合成一个。例如，可取精确率和召回率的平均值作为评价数值；还可以取“F1 score”，F1 score是计算平均值的一种改进的方法，比取平均值的表现好多了。

classifier precision recall F1 score A 95% 90% 92.4% B 98% 85% 91.0%

单数值评价度量能让你从众多算法中快速选出哪个算法最优，它对众多算法进行偏好排序，因而明确了进展的方向。

最后，假设你分别在四个主要市场（(i)US,(ii)China,(iii)India,(iv)其他）跟踪你的猫分类器准确率，因此你得到四个度量。对这四个度量取平均或加权平均值，你就会得到一个评价数值。取平均或加权平均是将多个度量变成一个的最常用的方法。

注释：

精确率和召回率：以猫图片分类器为例，精确率是指在分类器分类成猫的图片中，真的是猫图片的比例。召回率是指在开发集（或测试集）中的猫图片被分类器分类成猫图片的概率。在高准确率和高召回率间，经常需要权衡（tradeoff）。
F1 score：如果你想了解更多，可以点击 https://en.wikipedia.org/wiki/F1_score。F1 score就是精确率和召回率的几何平均值，是这样计算的 2/((1/precision)+(1/recall))。

0 0