看懂论文的机器学习基本知识(三)--假正例、假负例、ROC曲线
来源:互联网 发布:周生生网络旗舰店 编辑:程序博客网 时间:2024/06/11 22:18
一、假正例和假负例
假正例(False Positive):预测为1,实际为0的样本。本身是负样本,但预测为正。(将背景判断为前景了)
假负例(False Negative):预测为0,实际为1的样本
实际预测中,那些真正例(True Positive)和真负例(True Negative)都不会造成损失(cost)。
那么,我们假设一个假正例的损失是LFP,一个假负例的损失是LFN。
我们可以得到一个损失矩阵:
y^=1y^=0y=10LFNy=0LFP0
其中,y是真实值,y^是预测值。
那么,我们可以得到一个样本的后验期望损失:
当的时候,我们会预测结果为y^1=1,此时
假设,,那么我们可以得到决策规则:
其中,,也就是我们的决策边界。
例如,c=1时,我们对假正例和假负例同等对待,则可以得到我们的决策边界0.5。
二、ROC曲线
1.混淆矩阵(confusion matrix)
针对预测值和真实值之间的关系,我们可以将样本分为四个部分,分别是:
真正例(True Positive,TP):预测值和真实值都为1
假正例(False Positive,FP):预测值为1,真实值为0
真负例(True Negative,TN):预测值与真实值都为0
假负例(False Negative,FN):预测值为0,真实值为1
我们将这四种值用矩阵表示(图片引自《machine learning:A Probabilistic Perspective》):
上面的矩阵就是混淆矩阵。
2.ROC曲线
通过混淆矩阵,我们可以得到真正例率(True Positive Rate , TPR):
我们还可以得到假正例率(False Positive Rate , FPR):
可以看到,TPR也就是我们所说的召回率,那么只要给定一个决策边界阈值,我们可以得到一个对应的TPR和FPR值,然而,我们不从这个思路来简单的得到TPR和FPR,而是反过来得到对应的,我们检测大量的阈值,从而可以得到一个TPR-FPR的相关图,如下图所示(图片引自《machine learning:A Probabilistic Perspective》):
图中的红色曲线和蓝色曲线分别表示了两个不同的分类器的TPR-FPR曲线,曲线上的任意一点都对应了一个值。该曲线就是ROC曲线(receiver operating characteristic curve)。该曲线具有以下特征:
- 一定经过(0,0)点,此时,没有预测为P的值,TP和FP都为0
- 一定经过(1,1)点,此时,全都预测为P
- 最完美的分类器(完全区分正负样例):(0,1)点,即没有FP,全是TP
- 曲线越是“凸”向左上角,说明分类器效果越好
- 随机预测会得到(0,0)和(1,1)的直线上的一个点
- 曲线上离(0,1)越近的点分类效果越好,对应着越合理的
从图中可以看出,红色曲线所代表的分类器效果好于蓝色曲线所表示的分类器。
3.利用ROC的其他评估标准
- AUC(area under thecurve),也就是ROC曲线的下夹面积,越大说明分类器越好,最大值是1,图中的蓝色条纹区域面积就是蓝色曲线对应的 AUC
- EER(equal error rate),也就是FPR=FNR的值,由于FNR=1-TPR,可以画一条从(0,1)到(1,0)的直线,找到交点,图中的A、B两点。
- 看懂论文的机器学习基本知识(三)--假正例、假负例、ROC曲线
- 看懂论文的机器学习基本知识(三)--假正例、假负例、ROC曲线
- 看懂论文的机器学习基本知识(二)
- 看懂论文的机器学习基本知识(四)--bootstrap
- 看懂论文的机器学习基本知识(二)
- 看懂论文的机器学习基本知识(四)--bootstrap
- 看懂论文的机器学习基本知识(五)--随机森林、决策树
- 看懂论文的机器学习基础知识(一)
- 看懂论文的机器学习基础知识(一)
- 机器学习中的PR曲线和ROC曲线
- Python:机器学习的ROC曲线、AUC计算,以及相应的代码
- py2.7 : 《机器学习实战》 Adaboost 2.24号:ROC曲线的绘制和AUC计算函数
- 使用Sklearn模型做分类并绘制机器学习模型的ROC曲线
- 机器学习分类结果评判标准-混淆矩阵&ROC曲线
- 深度探讨机器学习中的ROC和PR曲线
- 机器学习之-分类性能指标-准确率-召回率-ROC曲线
- 机器学习第七课part2(ROC;AUC;PR曲线)
- ROC曲线的解释(很形象)
- 关键路径过程详解、算法及其实现
- 看懂论文的机器学习基本知识(二)
- 微信小程序开发—(三)选项卡
- Linux基础学习笔记之root用户与普通用户
- (最小堆)哈夫曼树 ->求结点值与权值积的和
- 看懂论文的机器学习基本知识(三)--假正例、假负例、ROC曲线
- 【linux】安装yum源或者yum安装软件时候报错
- NVR、DVR的区别
- Python 排序函数sorted
- zookeeper集群扩容/下线节点实践
- 看懂论文的机器学习基本知识(四)--bootstrap
- [POJ] 2251 Dungeon Master
- CSS(2)css文件样式
- JAVA环境变量JAVA_HOME、CLASSPATH、PATH设置详解