机器学习(周志华) 参考答案 第二章模型评估与选择
来源:互联网 发布:南京广电网络营业厅 编辑:程序博客网 时间:2024/05/09 11:42
机器学习(周志华) 参考答案 第二章 模型评估与选择
机器学习(周志华西瓜书) 参考答案 总目录
- http://blog.csdn.net/icefire_tyh/article/details/52064910
1.数据集包含1000个样本,其中500个正例,500个反例,将其划分为包含70%样本的训练集和30%样本的测试集用于留出法评估,试估算共有多少种划分方式。
一个组合问题,从
2.数据集包含100个样本,其中正反例各一半,假定学习算法所产生的模型是将新样本预测为训练样本数较多的类别(训练样本数相同时进行随机猜测),试给出用10折交叉验证法和留一法分别对错误率进行评估所得的结果。
10折交叉检验:由于每次训练样本中正反例数目一样,所以讲结果判断为正反例的概率也是一样的,所以错误率的期望是
留一法:如果留下的是正例,训练样本中反例的数目比正例多一个,所以留出的样本会被判断是反例;同理,留出的是反例,则会被判断成正例,所以错误率是
3.若学习器A的F1值比学习器B高,试析A的BEP值是否也比B高。
F1值的大小与BEP值并没有明确的关系。
两个分类器的
这道题这里用反推,设计两个BEP值相同的分类器,如果他们的
再加点我看了评论后的疑惑:
BEP值就是
BEP值是在P=R时取到的,也就是BEP=P=R。如果在计算F时也要定义P=R,那么
这里分两种情况:
第一就是我的理解,在计算F1时就是按照分类器真实的分类结果来计算P,R,再根据PR计算F1。当这个分类器正好P=R时,有P=R=BEP=F1。否则BEP的计算不能用当前的PR,而是通过一步一步尝试到查准率=查全率时,P’=R’=BEP。
第二种就是不存在我下面假设的分类器,分类器始终会在P=R的位置进行截断(截断指的是分类器将所有样本按分为正例的可能性排序后,选择某个位置。这个位置前面分类为正,后面分类为负)。但是这个可能吗?这种情况下
分类器将所有训练样本按自己认为是正例的概率排序,排在越前面分类器更可能将它判断为正例。按顺序逐个把样本标记为正,当查准率与查全率相等时,
比如:
第一行是真实的测试样本编号与分类,第二三行是两个分类器对所有样本按为正例可能性的排序,以及判断的结果。显然两个分类器有相同的BEP值,但是他们的
4.试述真正例率(TPR)、假正例率(FPR)与查准率(P)、查全率(R)之间的联系。
查全率: 真实正例被预测为正例的比例
真正例率: 真实正例被预测为正例的比例
显然查全率与真正例率是相等的。
查准率:预测为正例的实例中真实正例的比例
假正例率: 真实反例被预测为正例的比例
两者并没有直接的数值关系。
5.试证明(2.22)AUC=1−lrank
从书
由于一开始做题时并没有想过ROC曲线不可以是斜线,所以画了这张图,如果不存在正例反例预测值相等的情况,那么斜线也没必要存在。
但是在维基百科上看到一副图,貌似也存在斜线的ROC,但是不知道含义是否和我这里写的一样。
https://en.wikipedia.org/wiki/Receiver_operating_characteristic
引用一幅有斜线的ROC曲线
与
由于
可以看出一共有
<
公式
6.试述错误率与ROC曲线之间的关系
学习器会选择错误率最小的位置作为截断点。
7.试证明任意一条ROC曲线都有一条代价曲线与之对应,反之亦然。
由定义可以知道
每条
所有代价线段总会有一块公共区域,这个区域就是期望总体代价,而这块区域的边界就是代价曲线,且肯定从
在有限个样本情况下,
8.Min-Max规范化与z-score规范化如下所示。试析二者的优缺点。
9.试述卡方检验过程。
略(……)
10.试述在使用Friedman 检验中使用式(2.34)与(2.35)的区别
书上说
方差为(其实我觉得
即:
所以
统计量
猜测:由于
对序值表做方差分析:
总方差
算法间方差
其他方差
做统计量
- 机器学习(周志华) 参考答案 第二章模型评估与选择
- 第二章 模型评估与选择--机器学习(周志华) 参考答案
- [机器学习 - 周志华] - 第二章 - 模型评估与选择
- <机器学习>(周志华)读书笔记 -- 第二章 模型评估与选择
- 读书笔记《机器学习》:第二章:模型评估与选择
- 机器学习总结之第二章模型评估与选择
- 《机器学习》第二章 模型评估与选择 笔记1
- 周志华 《机器学习》之 第二章(模型评估与选择)概念总结
- 机器学习(周志华)_第二章模型评估与选择
- 《机器学习》第二章 模型评估与选择 笔记2 泛化误差的评估方法
- 周志华 机器学习 模型选择与评估
- 周志华《机器学习》第 2 章 模型评估与选择
- 『机器学习——周志华』学习笔记——第二章:模型评估与选择
- 《机器学习》第二章 模型评估与选择 笔记3 查准率、查全率
- 机器学习第二章模型评估与选择笔记(前篇)
- 周志华《机器学习》学习笔记2--模型评估与选择
- 机器学习模型评估与选择
- 机器学习(二) 模型评估与选择
- gtx com.google.android.xts.permissions.DefaultPermissionGrantPolicyTest -- testDefaultGrants fail
- zTree获取节点序号及判断是不是父子节点
- C语言实现大数据除法
- (3)从零开始的操作系统开发日记
- BZOJ2330: [SCOI2011]糖果 差分约束+spfa
- 机器学习(周志华) 参考答案 第二章模型评估与选择
- 全局变量生存周期为整个程序执行周期---现金记账
- 关于iuap项目的一些记录(controller)
- JSP PDF打印 随记
- 循环冗余检验 (CRC) 算法原理
- CentOS 7 下yum安装时下载的rpm包存放路径
- Android开发架构规范
- 开始
- 欧几里得算法 求最大公约数