机器学习（周志华）-2模型评估与选择

来源：互联网发布：微信点菜系统源码编辑：程序博客网时间：2024/05/30 23:10

机器学习（周志华）-2模型评估与选择

标签（空格分隔）：机器学习

经验误差与过拟合

错误率
误差：训练误差泛化误差
欠拟合过拟合

评估方法

留出法

训练集S 测试集T
D=S⋃T,S⋂T=ϕ
约2/3-4/5用于训练集，其余用于测试集

分层采样
随机划分，一般采用若干次随机划，重复进行实验评估后取平均值

交叉验证法

先将数据集分为k个大小相似的互斥子集（当然，每个子集的产生都要用分层抽样进行）。每次用k-1个子集作为训练集，剩下的一个作为测试集。这样就可以进行k次训练-测试。k的测试结果的平均值就是最终的测试结果。
k折交叉验证通常要随机采用不同的划分重复p次，最终返回p次k折交叉验证结果的均值，比如10次10折交叉验证

自助法

假设有一个包含m个样本的数据集D。对这个数据集进行m次有放回的抽样，则得到了一个含有m个样本的数据集D’。D’相对于原数据集D，规模没有减少，只是D’中有部分样本是重复出现的。所以在抽样中没有抽到的样本就作为测试集，D’就作为训练集。
样本在m次采样中始终不会被采到的概率是

lim m \to \infty (1 - 1 m) \to 1 e \approx 0.368

一般来说抽样中会有三分之一的样本没有被抽到，也就是说测试集大小为数据集D大小的三分之一。
自助法在数据集较小，难以有效划分训练/测试集时有用，但是自主法产生的数据集改变了初始数据集的分布，会引入估计偏差

调参与最终模型

算法的参数，数目通常在10以内
模型的参数，数目可能很多

用测试集上的判别效果来估计模型在实际使用中的泛化能力，而把训练数据划分为训练集和验证集，基于验证集上的性能来进行模型选择和调参

性能度量

性能度量：衡量模型泛化能力的评价标准
均方误差：回归任务常用的性能度量
E(f;D)=1m∑mi=1(f(xi)−yi)2
一般的，对于数据分布和概率密度函数p(*)
E(f;D)=∫x D(f(x)−y)2p(x)dx

错误率与精度

错误率：分类错误的样本占总样本的比例
E(f;D)=1m∑mi=1II(f(xi)≠yi)
精度：分类正确的样本占总样本的比例
acc(f;D)=1m∑mi=1II(f(xi)=yi)=1−E(f;D)
更一般的
E(f;D)=∫x DII(f(x)≠y)p(x)dx
E(f;D)=∫x DII(f(x)=y)p(x)dx=1−E(f;D)

查准率查全率与 F1

真实情况预测结果正例反例正例 TP真正例 FN假反例反例 FP假正例 TN真反例

查准率：P=TPTP+FP
查全率：R=TPTP+FN
学习器性能的判定：
- 若学习器A的P-R曲线完全包住学习器B的曲线，则学习器A的的性能较优
- 若若学习器A的P-R曲线与坐标轴包围的面积大于学习器B的面积，则学习器A的的性能较优
- 平衡点：查准率=查全率若平衡点A>B,则学习器A的的性能较优
- F1度量：1F1=12(1P+1R)

F1=2∗P∗RP+R=2∗TP样例总数+TP−TN
F1度量的一般形式：

F 1 = ( 1 + β 2 ) * P * R β 2 * P + R = 2 * T P 样 例 总 数 + T P - T N

β>1时查全率有更大影响，

β<1时查准率有更大影响，
宏查全率：

macro−P=1n∑ni=1pi
宏查准率：

macro−R=1n∑ni=1Ri
宏查准率：

macro−F1=2∗macro−P∗macro−Rmacro−P+macro−R

微查准率：micro−P=TP¯¯¯TP¯¯¯+FP¯¯¯
微查全率：micro−P=TP¯¯¯TP¯¯¯+FN¯¯¯¯
微查准率： micro−F1=2∗macro−P∗macro−Rmacro−P+macro−R

ROC与AUC

ROC：受试工作者特征,
ROC曲线：FPR-TPR曲线
真正例率：TPR=TPTP+FN
假正例率：FPR=FPTN+FP
给定 m+ 个正例和 m−个反例，根据学习器预测结果对样例进行排序，然后把分类阔值设为最大，即把所有样例均预测为反例，此时真正例率和假正例率均为 0，在坐标 (0， 0) 处标记一个点然后，将分类阐值依次设为每个样例的预测值，即依次将每个样例划分为正例.设前一个标记点坐标为 (x， y)，当前若为真正例，则对应标记点的坐标为 (x，y+1m+);当前若为假正例，则对应标记点的坐标为 (x+1m−, y)，然后用线段连接相邻点即得.
ROC曲线与AOC示意图
学习器性能的判定：
- 若学习器A的ROC曲线完全包住学习器B的曲线，则学习器A的的性能较优
- AUC:ROC曲线与坐标轴包围的面积。若学习器A的AUC大于学习器B的AUC，则学习器A的的性能较优

AUC=12∑m−1i=1(xi+1−xi)(yi+1+yi)

给定m+个正例m−个反例,. 令D+ 和 D−分别表示正、反例集合，则排序”损失” (loss)定义为:

l r a n k = 1 m + m - \sum x + \in D + \sum x - \in D - (I I (f (x +) < f (x -)) + 1 2 I I (f (x +) < f (x -)))

即考虑每一对正、反例?若正例的预测值小于反例?则记一个”罚分等?则t记己 0.5 个”罚分”容易看出，

lrank对应的是 ROC 曲线之上的面积:

AUC=1−lrank

代价敏感错误率与代价曲线

以二分类任务为例,我们可根据任务的领域知识设定一个”代价矩
阵” (cost matrix) ,其中costij表示将第 i 类样本预测为第 j 类
样本的代价.一般来说 , costii= 0;

真实类别预测类别第0类第1类第0类 0

cost01 第1类

cost01 0

非均等代价

有考虑不同错误会造成不同的后果.从而有不同的代价
将上表中的第 0 类作为正类、第 1 类作为反类，令D+与D一分别代表样例集 D 的正例子集和反例子集,则”代价敏感” (cost-sensitive)错误率为

E (f; D; c o s t) = 1 m (\sum x i \in D + Ⅱ (f (x i) \neq y i) * c o s t 01 + \sum x i \in D - Ⅱ (f (x i) \neq y i) * c o s t 10)

类似的,可给出基于分布定义的代价敏感错误率,以及其他一些性能度量，如精度的代价敏感版本.若令 costij 中的 i ,j 取值不限于0,1 ,则可定义出多分类任务的代价敏感性能度量.

代价曲线

在非均等代价下, ROC 曲线不能直接反映出学习器的期望总体代价,而”代价曲线” (cost curve) 则可达到该目的.代价曲线图的横轴是取值为 [0 , 1]的正例概率代价
P(+)cost=p∗cost01p∗cost01+(1−p∗cost10，其中p是样例为正例的概率；
纵轴是取值为【0.1】的归一化代价
costnorm=FNR×P×cost01+FPR×(1−p)×cost10P×cost01+(1−p)×cost10
其中FPR 是假正例率,FNR=1-TPR是假反例率.

ROC 由线上每一点对应了代价平面上的一条线段，设 ROC曲线上点的坐标为 (TPR, FPR) ,则可相应计算出 FNR,然后在代价平面上绘制一条从 (O , FPR) 到 (l , FNR) 的线段,线段下的面积即表示了该条件下的期望总体代价;如此将 ROC 曲线土的每个点转化为代价平面上的一条线段,然后取所有线段的下界,围成的自积即为在所有条件下学习器的期望总体代价。
代价曲线与期望总代价

机器学习（周志华）-2模型评估与选择

机器学习（周志华）-2模型评估与选择

经验误差与过拟合

评估方法

留出法

交叉验证法

自助法

调参与最终模型

性能度量

错误率与精度

查准率查全率与 F1

ROC与AUC

代价敏感错误率与代价曲线

非均等代价

代价曲线

比较检验

假设检验

二项检验

t检验

交叉验证t检验

MacNemar检验

Friendman检验与Nemenyi后续检验

偏差与方差

机器学习（周志华 ）-2模型评估与选择

机器学习（周志华 ）-2模型评估与选择

经验误差与过拟合

评估方法

留出法

交叉验证法

自助法

调参与最终模型

性能度量

错误率与精度

查准率 查全率与 F1

ROC与AUC

代价敏感错误率与代价曲线

非均等代价

代价曲线

比较检验

假设检验

二项检验

t检验

交叉验证t检验

MacNemar检验

Friendman检验与Nemenyi后续检验

偏差与方差

机器学习（周志华）-2模型评估与选择

机器学习（周志华）-2模型评估与选择

查准率查全率与 F1