分类器性能

来源:互联网 发布:php 通用表单 编辑:程序博客网 时间:2024/06/07 02:53
分类器性能
混淆矩阵
1.基本概念
   混淆矩阵用于把样本实际值(true class)和模型预测值(predicted class)进行联列表分析。如果实际样本true class 取-1,则为反例(negative),取+1则为正例(positive).如果模型预测错误,则为false,预测正确,则为真(true).最后混淆矩阵如表下所示:




表中各个项的含义如下所示:



对应于TP、TN、FP、FN等概念,再引入相应的比率概念,如下表所示






对应于TP、TN、FP、FN等概念,再引入相应的比率概念,如下表所示
同样,这里的TNR也称为特指度Specicity,TPR称为灵敏度Sensitivity和召回率(或查全率Recall,FPR称为Fallout,FNR称为漏查率Miss,


2.正确率和错误率

正确率是指模型预测正确的概率,其公式如下所示:


同样,错误率是指模型预测错误的概率,其公式如下所示:




3.查准率和查全率
此时把目标变量值为1(表示购买设为正例,同时引入查准率和查全率这两个概念来衡量分类器对正例样本样本预测的准确性和可信性。


查准率(precision:正确分类的正例数(TP占模型预测正例(TP+FP)的比例,即:


该指标用于衡量分类器预测正例的准确性
查全率(recall:正确分类的正例数(TP占实际正例(P=TP+FN)的比例,即:Recall=TPR=TP/(TP+FN)
该指标用于衡量分类器预测正例的可信性。


4.ROC曲线和AUC
1.灵敏度和特指度
灵敏度(sensitivity:正确分类的正例数(TP占实际正例(P=TP+FN的比例,即:
Sensitivity=TPR=TP/(TP+FN)
特指度(specicity:正确分类的反例数(TN占实际反例(N=TN+FP的比例,即:
Specicity=TNR=TN/(TN+FP)
1-Specicity=FPR=FP/(TN+FP)
ROC曲线的横轴是假正率(FPR,它等于1-特指度(1-Specicity,纵轴是真正率(TPR,它等于灵敏度(sensitivity.使用ROC曲线来衡量所考虑的目的是:在尽量少的“误差”(假正率FPR的基础上,尽可能多的检验出正例的个体(真正率TPR
曲线下面积AUC
ROC曲线下的面积AUC来衡量不同模型间ROC曲线的表现情况,AUC的面积越大,该模型的ROC曲线表现越好,模型越好用。


5.提升度和提升曲线
提升度lift的定义是:lift=TPR/((TP+FR)/C),即提升度lift等于TPR除以预测正例的比例,这里把(TP+FP/C称为深度depth.
提升曲线
提升曲线是以深度为横轴,以提升度为纵轴绘制的曲线。







0 0
原创粉丝点击