《统计学习方法》笔记——算法性能度量

来源:互联网 发布:r语言导入excel数据 编辑:程序博客网 时间:2024/05/29 02:17

        • 错误率与精度
        • 查全率查准率与F1系数
        • ROC与AUC
        • 代价敏感错误率与代价曲线

错误率与精度

错误率是分类错误的样本数栈样本总数的比例。
精度是分类正确的样本栈样本总数的比例。

对样例集D,分类错误率定义为:
这里写图片描述
精度定义为:
这里写图片描述

常用的精度度量指标有MAE,RMSE:

以协同过滤中该度量指标的应用为例进行描述如下:
MAE:
这里写图片描述
其中Pa,d表示预测评分值,ra,d表示测试集中的实际评分值,L表示测试集的大小
RMSE:
这里写图片描述
其中Pa,d表示预测评分值,ra,d表示测试集中的实际评分值,L表示测试集的大小

查全率、查准率与F1系数

对于二分类问题,可以将样例根据真实类别与预测类别的组合划分的真正例(true positive)、假正例(false positive)、真反例(true negative)、假反例(false negative),令TP、FP、TN、FN分别表示其对应的样例数。显然有TP+FP+TN+FN=样例总数。
这里写图片描述

查准率(Precision):
这里写图片描述
查全率(Recall):
这里写图片描述

注:查全率和查准率是一对矛盾的评价指标,一般不可能两个都高。

F1系数:
这里写图片描述
综合考虑了查全率和查准率。在实际应用中还可以根据对查全率和查准率的重视程度的不同而进行调整。

ROC与AUC

ROC曲线:使用“真正假率TPR”和“假正假率FPR”分别作为横、纵坐标,两者定义为:

真正假率TPR:
引用块内容
假正假率FPR:
这里写图片描述
得到的曲线称为“ROC曲线”。

AUC:则为ROC曲线与横、纵坐标围成的图形的面积。一般用来比较两种算法在采用ROC曲线作为评价指标的情况下的优劣。

代价敏感错误率与代价曲线

由于不同类型的错误所造成的的后果不同,所以为错分的情况引入了代价值。这里暂不详述。

目前暂时整理到这里,日后若有接触到新的评价指标再进行补充。