机器学习——模型评估与选择

来源:互联网 发布:唐100最新销量数据 编辑:程序博客网 时间:2024/06/05 14:55

1.拟合:接近目标的远近程度。
过拟合:学习能力过强导致过于拟合。过于学习学到认为女生必须是长头发。
欠拟合:学习能力低下导致欠拟合。学习能力低下,拥有长发的都是女生。

2.评估方法:
目标:所选模型的泛化误差最小
一、留出法
Step 1:
将数据集D 互斥 的分成训练集S和测试集T,D=SUT。
Step 2:运行,得评估结果
多次循环Step1、Step2
最后,取多次重复实验的均值进行评估

通常:
2/3~4/5的样本用作训练集,剩余样本作为测试集。
同时,保证样本数据分布的一致性。

二、交叉验证法
Step 1:
将数据集D 互斥 的分为k个大小相似的子集,D=D1 U D2 U … U Dk,并保证数据分布的一致性。
Step 2:每次用k-1个子集做训练集,剩下一个子集做测试集
Step 3:运行,得评估结果
多次循环Step1、Step2、Step3
最后,取多次重复实验的均值进行评估

通常:
1)一般k取10,20,5
2)数据集较大时,训练大量模型,开销较大

三、自助法
直接以 自助采样法(Bootstrap Sampling) 为基础产生训练样本、测试样本。
给定包含m个样本的数据集D,对D进行随机又放回的采样产生数据集D’,将D’作为训练集,D\D’作为测试集。
通常,
1)用于数据集较小,难以有效划分训练/测试集时很有用;
2)自助法对集成学习很有用,自助法可以从初始数据集中产生很多不同的训练集

3.性能度量
衡量模型泛化能力的评价标准。
一、错误率与精度
1)错误率:分类错误的样本数占样本总数的比例
2)精度:分类正确的样本数占样本总数的比例

二、查准率、查全率、F1
错误率与精度有时不能满足所有任务需求。
对于二分类问题,真正例TP、假正例FP、真反例TN、假反例FN。混淆矩阵

这里写图片描述
查准率:P = TP/(TP+FP)
查全率:R = TP/(TP+FN)

查准率与查全率是一对矛盾的度量。
例如:若希望将好瓜尽可能多地选出来,则可通过增加选瓜的数量来实现,如果将所有西瓜都选上,那么所有的好瓜也必然都被选上了,但这样查准率就会比较低;若希望选出的瓜中好瓜比例尽可能高,则可只挑选最有把握的瓜,但这样就难免会漏掉不少好瓜,使得查全率较低,通常只有在一些简单任务中,才可能使查全率和查准率都很高。

这里写图片描述

P-R曲线,找平衡点(Break-Even Point,BEP),P=R。

在一些应用中,对查准率、查全率重视程度不同。
F1度量的一般形式
:
F1是基于查准率与查全率的调和平均定义的:
1/F1 = 1/2 * (1/P + 1/R)

这里写图片描述

加权调和平均
这里写图片描述
参数大于1时,查全率有更大影响;小于1时,查准率有更大影响。

4.ROC与AUC
1)ROC曲线:
受试者工作特征曲线 (Receiver Operating Characteristic Curve)根据一系列不同的二分类方式(分界值或决定阈),以真正例率(True Positive Rate,TPR,灵敏度)为纵坐标,假正例率(False Positive Rate,FPR,1-特异度)为横坐标绘制的曲线。

TPR=TP/(TP+FN)
FPR=FP/(FP+TN)

2)AUC(Area Under ROC Curve)
指ROC曲线的下面积。曲线下面积越大,诊断准确性越高。

0 0
原创粉丝点击