机器学习-模型评估与选择

来源：互联网发布：艾瑞数据查询编辑：程序博客网时间：2024/05/29 09:31

模型评估与选择

错误率：E=a/m
训练误差|经验误差：学习器在训练集上的误差
泛化误差：学习器在新样本上的误差

1.评估方法

- 留出法 ：将两个数据集D划分成互斥的集合，其中一个作为训练集S，另一个作为测试集T。
- 交叉验证法：将数据集D划分成k个大小相似的互斥的数据集，每次用k-1个作为训练集，余下的作为测试集；这样获得k组结果，最终返回k组的测试结果的均值。(特别：数据集D有m个样本，m=k,得到特殊情况————留一法)
- 自助法：数据集D包含m个样本,对其采样获得数据集D′:每次随机从D中挑选一个样本放入D′中（有放回），执行m次，就得到了包含m个样本的数据集D′。
论证：每一样本一次被获取的概率都为1m,一次不被获取的概率为1−1m，始终不被取到概率为(1−1m)m,取极限得：

lim 0 \to \infty (1 - 1 m) m \to 1 e \approx 0.386

1.1评价：

留出法与交叉验证：由于保留了一部分数据集作为验证，必然会引入因为训练样本规模不同而导致的估计偏差。
留一法：受样本规模影响小，但计算复杂度太高。
自助法：数据集较小、难以有效划分训练/测试集时有用

2.性能度量

- 均方误差：

E (f : D) = 1 m \sum i = 1 m (f (x i) - y i) 2

　　　更一般的：

E(f:D)=∫x∼D(f(x)−y)2p(x)dx
- 查准率、查全率、F1

P查准率(准确率)：预测为真中实际真的概率

T P ( 真 正 例 ) T P ( 真 正 例 ) + F P ( 假 正 例 )

R查全率(召回率)：所有真的预测到正确为真的概率

T P ( 真 正 例 ) T P ( 真 正 例 ) + F N ( 假 反 例 )

查准率与查全率是一对矛盾的度量：好瓜尽量多的选出来，查准率就低了；选出的瓜好瓜多，查全率低了。

- F1度量

1 F 1 = 1 2 \cdot (1 P + 1 R)

　　　一般形式

1Fβ=11+β2⋅(1P+β2R) 其中

β>1时查全率影响更大，

β<1时查准率影响更高

- ROC与AUC
ROC:全称“受试者工作特征”。其纵坐标为“真正例率”，简称TPR；横坐标为“假正例率”，简称FPR。

T P R = T P T P + F N

F P R = F P T N + F P

AUC:ROC曲线下的面积.AUC=1,是完美分类器(并不存在)；0.5

3.假设检验

二项检验、t检验、交叉验证t检验、McNemar检验(τ2χ)、Friedman检验(F)、Nemenyi检验

4.偏差与方差

偏差(bias)：期望输出与真实标记的差别，刻画学习算法本身的拟合能力　　

b i a s 2 (x) = (f ¯ (x) - y) 2

方差(var):预测值的变化范围，离散程度，刻画数据波动对学习性能的变化　　

v a r (x) = E D [(f (x; D) - f ¯ (x)) 2]

噪声：刻画学习问题本身的难度　　

ε 2 = E D [(y D - y) 2]

于是，
$E (f; D) = b i a s 2 (x) + v a r (x) + ε 2$
泛化误差可以分解为偏差、方差与噪声之和.解释为泛化性能由学习算法的能力、数据的充分性以及学习任务本身的难度所共同决定。
一般来说，偏差和方差是有冲突的，称为偏差-方差窘境。训练不足-拟合能力不够-训练数据波动对学习器影响小-偏差主导；训练加深-拟合能力够-训练数据波动渐渐被学习器学习-方差主导；训练充足-拟合能力很强-训练数据波动对学习器影响很大-过拟合

阅读全文

0 0