数据挖掘中的集成方法——通过集成预测来提升精度(读书笔记)

来源:互联网 发布:打底衫比外套长 知乎 编辑:程序博客网 时间:2024/05/22 13:13

第1章    集成发现

将诸模型集成往往比单一模型得到的效果更显著。集成方式包括:平均法、投票法和顾问感知器。在从回声定位信号中提取蝙蝠分类的试验中,每种蝙蝠有3-8种信号。
模型建立和交叉验证的结果显示:
基准精度(选择相对多的数量):27%。
决策树的精度:46%
多项式网络的精度:64%
剪枝后的神经网络的精度:69%
八维变量的最近邻的精度:69%

以上各种方法在不同的数据区域出错,尝试平均这些方法的估计值,优化后可得到74%的精度。


1.1    建立集成

两步构成:(1)建立不同模型  +  (2)组合其估计
组合可由投票完成,主要还是通过带门限的感知器完成。
(1)贝叶斯:后验加权模型进行平均和估计。
(2)Bagging:自助训练数据集采集多数投票或平均。
(3)随机森林:在被组合树间增加随机成员。
(4)AdaBoost:改变(提升或降低)例子的权重递推构建模型并加权估计。

(5)梯度Boosting:面向回归和分类问题将AdaBoost推广到多种误差函数。


1.2    正则化

目的:防止过拟合,提高泛化能力。
原则:精度和简单兼顾
矛盾:高精度->复杂模型

避免过拟合的方法:early stopping、数据集扩增(Data augmentation)、正则化(Regularization)包括L1、L2,dropout。

正则化技术:在误差函数上增加模型复杂性惩罚项,最小化该项提高泛化能力。

L0范数正则化:L0范数是指向量中非0的元素的个数。可以实现稀疏化,但是!!!属于NP难问题。
L1范数正则化:即Lasso正则化。L1范数指向量中各个元素绝对值之和,叫“稀疏规则算子”(Lasso regularization),同样可以实现稀疏化。L1范数是L0范数的最优凸近似,而且它比L0范数要容易优化求解。

参数稀疏化的好处:

(1)有利于特征选择(Feature Selection)    (2)可解释性(Interpretability)强

L2范数正则化:也称“岭回归”。L2范数是指向量各元素的平方和然后求平方根。让L2范数的规则项||W||2最小,可以使得W的每个元素都很小,都接近于0,限制了参数很小,就限制了多项式某些分量的影响很小。

总结:L1会趋向于产生少量的特征,而其他的特征都是0,而L2会选择更多的特征,这些特征都会接近于0。Lasso在特征选择时候非常有用,而Ridge就只是一种规则化而已。在所有特征中只有少数特征起重要作用的情况下,选择Lasso比较合适,因为它能自动选择特征。而如果所有特征中,大部分特征都能起作用,而且起的作用很平均,那么使用Ridge也许更合适。


1.3  Netflix(网飞)奖

加权集成来自多达30个竞争者模型的贡献,赢得最后的机会。 集成方法:Bagging、随机森林、Adaboost、梯度Boosting,大大提高泛化能力。
0 0