机器学习——模型评估与选择

来源：互联网发布：唐100最新销量数据编辑：程序博客网时间：2024/06/05 14:55

1.拟合：接近目标的远近程度。
过拟合：学习能力过强导致过于拟合。过于学习学到认为女生必须是长头发。
欠拟合：学习能力低下导致欠拟合。学习能力低下，拥有长发的都是女生。

2.评估方法：
目标：所选模型的泛化误差最小
一、留出法
Step 1：
将数据集D 互斥的分成训练集S和测试集T，D=SUT。
Step 2：运行，得评估结果
多次循环Step1、Step2
最后，取多次重复实验的均值进行评估

通常：
2/3~4/5的样本用作训练集，剩余样本作为测试集。
同时，保证样本数据分布的一致性。

二、交叉验证法
Step 1：
将数据集D 互斥的分为k个大小相似的子集，D=D1 U D2 U … U Dk，并保证数据分布的一致性。
Step 2：每次用k-1个子集做训练集，剩下一个子集做测试集
Step 3：运行，得评估结果
多次循环Step1、Step2、Step3
最后，取多次重复实验的均值进行评估

通常：
1）一般k取10，20，5
2）数据集较大时，训练大量模型，开销较大

三、自助法
直接以自助采样法（Bootstrap Sampling）为基础产生训练样本、测试样本。
给定包含m个样本的数据集D，对D进行随机又放回的采样产生数据集D’，将D’作为训练集，D\D’作为测试集。
通常，
1）用于数据集较小，难以有效划分训练/测试集时很有用；
2）自助法对集成学习很有用，自助法可以从初始数据集中产生很多不同的训练集

3.性能度量
衡量模型泛化能力的评价标准。
一、错误率与精度
1）错误率：分类错误的样本数占样本总数的比例
2）精度：分类正确的样本数占样本总数的比例

二、查准率、查全率、F1
错误率与精度有时不能满足所有任务需求。
对于二分类问题，真正例TP、假正例FP、真反例TN、假反例FN。混淆矩阵

这里写图片描述
查准率：P = TP/(TP+FP)
查全率：R = TP/(TP+FN)

查准率与查全率是一对矛盾的度量。
例如：若希望将好瓜尽可能多地选出来，则可通过增加选瓜的数量来实现，如果将所有西瓜都选上，那么所有的好瓜也必然都被选上了，但这样查准率就会比较低；若希望选出的瓜中好瓜比例尽可能高，则可只挑选最有把握的瓜，但这样就难免会漏掉不少好瓜，使得查全率较低，通常只有在一些简单任务中，才可能使查全率和查准率都很高。

这里写图片描述

P-R曲线，找平衡点（Break-Even Point，BEP），P=R。

在一些应用中，对查准率、查全率重视程度不同。
F1度量的一般形式

F1是基于查准率与查全率的调和平均定义的：
1/F1 = 1/2 * （1/P + 1/R）

这里写图片描述

加权调和平均
这里写图片描述
参数大于1时，查全率有更大影响；小于1时，查准率有更大影响。

4.ROC与AUC
1）ROC曲线：
受试者工作特征曲线（Receiver Operating Characteristic Curve）根据一系列不同的二分类方式（分界值或决定阈），以真正例率（True Positive Rate，TPR，灵敏度）为纵坐标，假正例率（False Positive Rate，FPR，1-特异度）为横坐标绘制的曲线。

TPR=TP/(TP+FN)
FPR=FP/(FP+TN)

2）AUC（Area Under ROC Curve）
指ROC曲线的下面积。曲线下面积越大，诊断准确性越高。

0 0