数据挖掘中的集成方法——通过集成预测来提升精度（读书笔记）

来源：互联网发布：打底衫比外套长知乎编辑：程序博客网时间：2024/05/22 13:13

第1章集成发现

将诸模型集成往往比单一模型得到的效果更显著。集成方式包括：平均法、投票法和顾问感知器。在从回声定位信号中提取蝙蝠分类的试验中，每种蝙蝠有3-8种信号。
模型建立和交叉验证的结果显示：
基准精度（选择相对多的数量）：27%。
决策树的精度：46%
多项式网络的精度：64%
剪枝后的神经网络的精度：69%
八维变量的最近邻的精度：69%

以上各种方法在不同的数据区域出错，尝试平均这些方法的估计值，优化后可得到74%的精度。

1.1 建立集成

两步构成：（1）建立不同模型 + （2）组合其估计
组合可由投票完成，主要还是通过带门限的感知器完成。
（1）贝叶斯：后验加权模型进行平均和估计。
（2）Bagging：自助训练数据集采集多数投票或平均。
（3）随机森林：在被组合树间增加随机成员。
（4）AdaBoost：改变（提升或降低）例子的权重递推构建模型并加权估计。

（5）梯度Boosting：面向回归和分类问题将AdaBoost推广到多种误差函数。

1.2 正则化

目的：防止过拟合，提高泛化能力。
原则：精度和简单兼顾
矛盾：高精度->复杂模型

避免过拟合的方法：early stopping、数据集扩增（Data augmentation）、正则化（Regularization）包括L1、L2，dropout。

正则化技术：在误差函数上增加模型复杂性惩罚项，最小化该项提高泛化能力。

L0范数正则化：L0范数是指向量中非0的元素的个数。可以实现稀疏化，但是！！！属于NP难问题。
L1范数正则化：即Lasso正则化。L1范数指向量中各个元素绝对值之和，叫“稀疏规则算子”（Lasso regularization），同样可以实现稀疏化。L1范数是L0范数的最优凸近似，而且它比L0范数要容易优化求解。

参数稀疏化的好处：

（1）有利于特征选择(Feature Selection) （2）可解释性(Interpretability)强

L2范数正则化：也称“岭回归”。L2范数是指向量各元素的平方和然后求平方根。让L2范数的规则项||W||2最小，可以使得W的每个元素都很小，都接近于0，限制了参数很小，就限制了多项式某些分量的影响很小。

总结：L1会趋向于产生少量的特征，而其他的特征都是0，而L2会选择更多的特征，这些特征都会接近于0。Lasso在特征选择时候非常有用，而Ridge就只是一种规则化而已。在所有特征中只有少数特征起重要作用的情况下，选择Lasso比较合适，因为它能自动选择特征。而如果所有特征中，大部分特征都能起作用，而且起的作用很平均，那么使用Ridge也许更合适。

1.3 Netflix（网飞）奖

加权集成来自多达30个竞争者模型的贡献，赢得最后的机会。集成方法：Bagging、随机森林、Adaboost、梯度Boosting，大大提高泛化能力。

0 0

数据挖掘中的集成方法——通过集成预测来提升精度（读书笔记）

第1章 集成发现

1.1 建立集成

1.2 正则化

1.3 Netflix（网飞）奖

第1章集成发现