MLY -- 8.Establish a single-number evaluation metric for your team to optimize
来源:互联网 发布:张国荣演技 知乎 编辑:程序博客网 时间:2024/06/15 22:45
分类准确率(classification accuracy)是一个单数值的评价度量:将开发集(或测试集)输入分类器分类,分类器返回“被分类器正确分类的数据占输入数据集的比例”。如果分类器A获得97%的准确率,分类器B获得90%的准确率费,根据评价度量,分类器A较好。
与此不同的是,精度率和召回率(precision and recall)就不是一个单数值评价度量:它用两个数值去评价分类器。多数值评价度量使得比较分类算法时变得困难。假设你的分类算法表现如下:
这里,并不能直接看出两个分类器中哪个更好。
在实际开发过程中,你的团队将用不同的算法框架、模型参数、特征选择等。而使用单数值评价度量(如准确率)能快速地对这些算法的优劣做一个排序,从而看出哪一个算法更好。
如果你真的关心精确率和召回率,我建议你使用一种标准的方法将两种评价数值糅合成一个。例如,可取精确率和召回率的平均值作为评价数值;还可以取“F1 score”,F1 score是计算平均值的一种改进的方法,比取平均值的表现好多了。
单数值评价度量能让你从众多算法中快速选出哪个算法最优,它对众多算法进行偏好排序,因而明确了进展的方向。
最后,假设你分别在四个主要市场((i)US,(ii)China,(iii)India,(iv)其他)跟踪你的猫分类器准确率,因此你得到四个度量。对这四个度量取平均或加权平均值,你就会得到一个评价数值。取平均或加权平均是将多个度量变成一个的最常用的方法。
注释:
精确率和召回率:以猫图片分类器为例,精确率是指在分类器分类成猫的图片中,真的是猫图片的比例。召回率是指在开发集(或测试集)中的猫图片被分类器分类成猫图片的概率。在高准确率和高召回率间,经常需要权衡(tradeoff)。
F1 score: 如果你想了解更多,可以点击 https://en.wikipedia.org/wiki/F1_score。F1 score就是精确率和召回率的几何平均值,是这样计算的 2/((1/precision)+(1/recall))。
- MLY -- 8.Establish a single-number evaluation metric for your team to optimize
- 8. Establish a single-number evaluation metric for your team to optimize 建立一个单一数字的评估指标(MACHINE LE
- MLY翻译 -- 2.How to use this book to help your team?
- 10 Tips for Leading Your Team to Peak Performance(ZT)
- MLY -- 10.Having a dev set and metric speeds up iterations
- SSD: how to optimize your Solid State Drive for Linux Mint 17.3, Ubuntu 16.04 and Debian
- 5 ways to optimize your design
- Metric evaluation error start
- How To Open Number Of Sites With A Single Click ?
- cannot be registered to your development team. Change your bundle identifier to a unique string to t
- How to optimize for the Pentium
- A Matlab Toolkit for Distance Metric Learning
- Unable to establish a connection to adb
- [文献阅读] METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments
- How To Optimize Your Site With GZIP Compression
- How To Optimize Your Site With HTTP Caching
- Tips to Optimize Your SQL Statements - Part 1
- Tips to Optimize Your SQL Statements - Part 2
- Study Jams_设计应用布局简单的三步骤
- MLY -- 6.Your dev and test sets should come from the same distribution
- numpy函数:[2]tile函数用法
- MLY -- 7.How large do the dev/test sets need to be?
- 移植MySQL
- MLY -- 8.Establish a single-number evaluation metric for your team to optimize
- 再续PS
- 24小时从0到1开发阴阳师小程序
- LeetCode 382
- 03-mapreduce的原理和编程
- MySQL数据库基础(一)(启动-停止、登录-退出、语法规范及最基础操作)(持续更新中)
- android
- MLY -- 9.Optimizing and satisficing metrics
- Andorid面试题集