周志华《机器学习》笔记:2、模型评估与选择
来源:互联网 发布:linux删除文件夹内容 编辑:程序博客网 时间:2024/05/22 11:41
周志华《机器学习》笔记:2、模型评估与选择
标签(空格分隔): 机器学习 周志华
因为在学习周志华的西瓜书时,对书上很多东西不甚理解,在经过多方查阅资料后,弄通了一点东西。为了防止以后忘记,把它记录下来,作为学习笔记。
同时,我认为学习笔记,不是对书中内容的概括,而是对其中知识点的理解,是书中内容的扩充。因此,此处只记录我对每章阅读时一时间不懂内容的理解。
本章主要讲了《机器学习》中模型的评估方法,以及选择。
P-R曲线
以二分类问题为例进行说明。分类结果的混淆矩阵如下图所示。
假设,现在我们用某一算法
查准率
查全率
P-R曲线,即基于这两个指标对算法进行直观衡量。
下面根据我的理解,谈一下P-R曲线是如何做出来的。
假设,我们的数据集包含n个样本
假设,我们将阈值设得很高,开始时,只认为
从图上所示,不同的算法,对应着不同的P-R曲线。如图所示,我们有A,B,C三条曲线。通常,我们认为如果一条曲线甲,能够被另一条曲线乙包住,则认为乙的性能优于甲。因为如果我们的算法
在图2.3上,就是曲线B的性能要高于曲线C。但是A和B发生了交叉,所以不能判断出A、B之间哪个算法更优。
比较两个分类器好坏时,显然是查得又准又全的比较好,也就是的PR曲线越往坐标(1,1)的位置靠近越好。因此,在图上标记了“平衡点(Break-Even Point,简称BEP)”。它是“查准率=查全率”时的取值,同时也是我们衡量算法优劣的一个参考。
ROC
主要对应书中P33~35部分内容。这里对ROC,和他的“损失”(
lrank )进行了补充解释。
ROC的具体画法,可以参阅下面的参考3(分类器性能指标之ROC曲线、AUC值)
还是以上面的表2.1来谈,ROC和PR曲线类似,都是对算法性能的一种评估。
ROC曲线以真正例率和假正例率为Y、X轴。其定义如下
真正例率:
假正例率:
从表2.1可以看到,真正例率和假正例率的分母,就是真实的正例个数,和反例个数。对一组数据
在某一算法
也就是书上说的,此时的数值对为
因此,ROC曲线是一个单调曲线。
从图上可以看出来,有限样本下ROC曲线从左往右,每次新增的数据点只有两种情况,或者向右一格,或者向上一格。
因此,AUC的面积可以这样算:
ROC曲线图的对角线
在ROC曲线上的对角线上的点,其真正例率=假正例率。这个结果,可以认为是随机猜测的结果。也就是随机猜测时,一个样例有一半的可能是被认为是“真”,一半的可能被认为是“反”。一个好的预测方法,起ROC曲线应该包含这条对角线,即优于随机猜测结果。
疑问
在图2.4 b 中A点处,可以看成
参照下面公式2.21的解释,这部分
关于损失公式的理解
指示函数,这里用
I(X) 来表示
在ROC图上,关于损失的定义是书中的公式2.21:
$
f(x^+)
代价曲线
代价曲线的横轴是正例概率代价,其定义式:
假设样本集
其中分母
图中归一化代价的定义:
将之也上下同时乘以样本数量
当
看到这里,感觉样本集
FPR与FNR的连线上的任一点,其横坐标对应某一正概率代价
图中的阴影部分,也就是期望总体代价那一部分,可以说是在任一正例概率
期望泛化误差=偏差+方差+噪声
这里只对公式的推导进行下梳理,定义参照书上。
式(3)到式(4)最后一项的变化
是由于噪声与
继续推导:
这里有一点不太懂:
公式13到14的变化
因为噪声的期望是0,所以式14最后一项为0。
参考
wiki:ROC曲线
【西瓜书】周志华《机器学习》学习笔记与习题探讨(二)②:这个知乎专题的作者很用心,自己配了很多精美的插图。笔记基本是对书上内容的总结,也含有一部分扩充内容,两相对照,也是大有裨益的。
分类器性能指标之ROC曲线、AUC值:里面详细介绍了ROC曲线的画法。
- 是什么决定了你的学习算法泛化性能?偏差—方差分解(bias-variance decomposition):文章里对泛化误差分解进行了仔细推导,写的比西瓜书上的细致。
- 周志华《机器学习》学习笔记2--模型评估与选择
- 周志华《机器学习》笔记:2、模型评估与选择
- 机器学习笔记--模型评估与选择
- 周志华 机器学习 模型选择与评估
- 机器学习之模型评估与模型选择(学习笔记)
- 机器学习(周志华 )-2模型评估与选择
- 周志华《机器学习》第 2 章 模型评估与选择
- 周志华《机器学习》笔记:第2章 模型评估与选择
- 机器学习(周志华)- 第2章模型评估与选择笔记
- 《机器学习》第二章 模型评估与选择 笔记2 泛化误差的评估方法
- 机器学习学习笔记(3)----模型评估与选择
- 机器学习-学习笔记 模型评估与选择
- 机器学习笔记(二)模型评估与选择
- 机器学习笔记(二)模型评估与选择
- 机器学习算法笔记之7:模型评估与选择
- 机器学习笔记(二)模型评估与选择
- 《机器学习》第二章 模型评估与选择 笔记1
- 机器学习笔记(III)模型评估与选择(II)
- Spring源码阅读(六)—AOP获取增强
- hbase远程api调用, 远程连接开发,环境构建相关问题总结
- 【九度OJ】1196:成绩排序
- hdu 6150 思维构造
- 开源MANO
- 周志华《机器学习》笔记:2、模型评估与选择
- hdu2819 Swap 二分图最大匹配 输出路径
- python + selenium之chromedriver
- hdu4825-01字典树&&贪心&&经典&&异或最大-Xor Sum
- 关于C++11中的std::XXX<void>
- 研发过程中,应该使用什么样的工具来提升效率
- 对JVM虚拟机中方法区的理解
- 微信公众号爬虫
- github 上传步骤