机器学习(周志华 )-2模型评估与选择

来源:互联网 发布:微信点菜系统源码 编辑:程序博客网 时间:2024/05/30 23:10

机器学习(周志华 )-2模型评估与选择

标签(空格分隔): 机器学习


经验误差与过拟合

错误率
误差:训练误差 泛化误差
欠拟合 过拟合

评估方法

留出法

训练集S 测试集T
D=ST,ST=ϕ
约2/3-4/5用于训练集,其余用于测试集

  • 分层采样
  • 随机划分,一般采用若干次随机划,重复进行 实验评估后取平均值

交叉验证法

先将数据集分为k个大小相似的互斥子集(当然,每个子集的产生都要用分层抽样进行)。每次用k-1个子集作为训练集,剩下的一个作为测试集。这样就可以进行k次训练-测试。k的测试结果的平均值就是最终的测试结果。
k折交叉验证通常 要随机采用不同的划分重复p次,最终返回p次k折交叉验证结果的均值,比如10次10折交叉验证
10折交叉验证

自助法

假设有一个包含m个样本的数据集D。对这个数据集进行m次有放回的抽样,则得到了一个含有m个样本的数据集D’。D’相对于原数据集D,规模没有减少,只是D’中有部分样本是重复出现的。所以在抽样中没有抽到的样本就作为测试集,D’就作为训练集。
样本在m次采样中始终不会被采到的概率是

limm(11m)1e0.368

一般来说抽样中会有三分之一的样本没有被抽到,也就是说测试集大小为数据集D大小的三分之一。
自助法在数据集较小,难以有效划分训练/测试集时有用,但是自主法产生的数据集改变了初始数据集的分布,会引入估计偏差

调参与最终模型

  • 算法的参数,数目通常在10以内
  • 模型的参数,数目可能很多

用测试集上的判别效果来估计模型在实际使用中的泛化能力,而把训练数据划分为训练集和验证集,基于验证集上的性能来进行模型选择和调参

性能度量

性能度量:衡量模型泛化能力的评价标准
均方误差:回归任务常用的性能度量
E(f;D)=1mmi=1(f(xi)yi)2
一般的,对于数据分布和概率密度函数p(*)
E(f;D)=x D(f(x)y)2p(x)dx

错误率与精度

错误率:分类错误的样本占总样本的比例
E(f;D)=1mmi=1II(f(xi)yi)
精度:分类正确的样本占总样本的比例
acc(f;D)=1mmi=1II(f(xi)=yi)=1E(f;D)
更一般的
E(f;D)=x DII(f(x)y)p(x)dx
E(f;D)=x DII(f(x)=y)p(x)dx=1E(f;D)

查准率 查全率与 F1

真实情况 预测结果 正例 反例 正例 TP真正例 FN假反例 反例 FP假正例 TN真反例

查准率:P=TPTP+FP
查全率:R=TPTP+FN
学习器性能的判定:
- 若学习器A的P-R曲线完全包住学习器B的曲线,则学习器A的的性能较优
- 若若学习器A的P-R曲线与坐标轴包围的面积大于学习器B的面积,则学习器A的的性能较优
- 平衡点:查准率=查全率 若平衡点A>B,则学习器A的的性能较优
- F1度量:1F1=12(1P+1R)

F1=2PRP+R=2TP+TPTN
F1度量的一般形式:

F1=(1+β2)PRβ2P+R=2TP+TPTN

β>1时查全率有更大影响,β<1时查准率有更大影响,
宏查全率:macroP=1nni=1pi
宏查准率:macroR=1nni=1Ri
宏查准率: macroF1=2macroPmacroRmacroP+macroR

微查准率:microP=TP¯¯¯TP¯¯¯+FP¯¯¯
微查全率:microP=TP¯¯¯TP¯¯¯+FN¯¯¯¯
微查准率: microF1=2macroPmacroRmacroP+macroR

ROC与AUC

ROC:受试工作者特征,
ROC曲线:FPR-TPR曲线
真正例率:TPR=TPTP+FN
假正例率:FPR=FPTN+FP
给定 m+ 个正例和 m个反例,根据学习器预测结果对样例进行排序,然后把分类阔值设为最大, 即把所有样例均预测为反例,此时真正例率和假正例率均为 0, 在坐标 (0, 0) 处 标记一个点然后,将分类阐值依次设为每个样例的预测值,即依次将每个样例 划分为正例.设前一个标记点坐标为 (x, y), 当前若为真正例,则对应标记点的 坐标为 (x,y+1m+);当前若为假正例,则对应标记点的坐标为 (x+1m, y),然 后用线段连接相邻点即得.
ROC曲线与AOC示意图
学习器性能的判定:
- 若学习器A的ROC曲线完全包住学习器B的曲线,则学习器A的的性能较优
- AUC:ROC曲线与坐标轴包围的面积。若学习器A的AUC大于学习器B的AUC,则学习器A的的性能较优

AUC=12m1i=1(xi+1xi)(yi+1+yi)

给定m+个正例m个反例,. 令D+D分别表示正、反例集合, 则排序”损失” (loss)定义为:

lrank=1m+mx+D+xD(II(f(x+)<f(x))+12II(f(x+)<f(x)))

即考虑每一对正、反例?若正例的预测值小于反例?则记一个”罚分 等?则t记己 0.5 个”罚分”容易看出 ,lrank对应的是 ROC 曲线之上的面积:
AUC=1lrank

代价敏感错误率与代价曲线

以二分类任务为例,我们可根据任务的领域知识设定一个”代价矩
阵” (cost matrix) ,其中costij表示将第 i 类样本预测为第 j 类
样本的代价.一般来说 , costii= 0;

真实类别 预测类别 第0类 第1类 第0类 0 cost01 第1类 cost01 0

非均等代价

有考虑不同错误会造成不同的后果.从而有不同的代价
将上表中的第 0 类作为正类、第 1 类作为反类,令D+D分别代表样例集 D 的正例子集和反例子集,则”代价敏感” (cost-sensitive)错误率为

E(f;D;cost)=1m(xiD+(f(xi)yi)cost01+xiD(f(xi)yi)cost10)

类似的,可给出基于分布定义的代价敏感错误率,以及其他一些性能度量,如精度的代价敏感版本.若令 costij 中的 i ,j 取值不限于0,1 ,则可定义出多分类任务的代价敏感性能度量.

代价曲线

在非均等代价下, ROC 曲线不能直接反映出学习器的期望总体代价,而”代价曲线” (cost curve) 则可达到该目的.代价曲线图的横轴是取值为 [0 , 1]的正例概率代价
P(+)cost=pcost01pcost01+(1pcost10,其中p是样例为正例的概率;
纵轴是取值为【0.1】的归一化代价
costnorm=FNR×P×cost01+FPR×(1p)×cost10P×cost01+(1p)×cost10
其中FPR 是假正例率,FNR=1-TPR是假反例率.

ROC 由线上每一点对应了代价平面上的一条线段 ,设 ROC曲线上点的坐标为 (TPR, FPR) ,则可相应计算出 FNR,然后在代价平面上绘制一条从 (O , FPR) 到 (l , FNR) 的线段,线段下的面积即表示了该条件下的期望总体代价;如此将 ROC 曲线土的每个点转化为代价平面上的一条线段,然后取所有线段的下界,围成的自积即为在所有条件下学习器的期望总体代价。
代价曲线与期望总代价

比较检验

假设检验

二项检验

t检验

交叉验证t检验

MacNemar检验

Friendman检验与Nemenyi后续检验

偏差与方差

0 0
原创粉丝点击
热门问题 老师的惩罚 人脸识别 我在镇武司摸鱼那些年 重生之率土为王 我在大康的咸鱼生活 盘龙之生命进化 天生仙种 凡人之先天五行 春回大明朝 姑娘不必设防,我是瞎子 老员工提出辞职怎么办 家人进看守所了怎么办 被贷款中介诈骗怎么办 喝完酒吐难受怎么办 犯罪嫌疑人死在看守所怎么办 犯罪嫌疑人死不承认怎么办 高血压进了看守所怎么办 看守所里被欺负怎么办 老师上课迟到了怎么办 艾滋病看守所不收怎么办 没能力偿还债务怎么办 监狱病人的癌症怎么办 监狱的传染病人怎么办 犯人在监狱重病怎么办 亲戚被关拘留所怎么办 打麻将被拘留怎么办 轻伤检察院不批捕怎么办 吸毒人被拘留怎么办 法院拘留没去怎么办 羁押期限超过了怎么办 羁押期限已满怎么办 刑事拘留22天了怎么办 被派出所拘留 车怎么办 被公安怀疑贩毒怎么办 报案后证据不足怎么办 担心丈夫复嫖怎么办 交通事故当事人重伤笔录怎么办 交通事故做完笔录后怎么办 罚款单子丢了怎么办 刑事案件人跑了怎么办 打架当事人跑了怎么办 赌博被派出所抓怎么办 治安案件人跑了怎么办 去警察局做笔录怎么办 未成年打架留下案底怎么办 土地被别人侵占怎么办 在公安局有案底怎么办 做小姐有案底怎么办 党员被黑社会打怎么办 周期内被扣15分怎么办 驾证扣了50分怎么办?