数据挖掘中的集成方法——通过集成预测来提升精度(读书笔记)
来源:互联网 发布:打底衫比外套长 知乎 编辑:程序博客网 时间:2024/05/22 13:13
第1章 集成发现
将诸模型集成往往比单一模型得到的效果更显著。集成方式包括:平均法、投票法和顾问感知器。在从回声定位信号中提取蝙蝠分类的试验中,每种蝙蝠有3-8种信号。模型建立和交叉验证的结果显示:
基准精度(选择相对多的数量):27%。
决策树的精度:46%
多项式网络的精度:64%
剪枝后的神经网络的精度:69%
八维变量的最近邻的精度:69%
以上各种方法在不同的数据区域出错,尝试平均这些方法的估计值,优化后可得到74%的精度。
1.1 建立集成
两步构成:(1)建立不同模型 + (2)组合其估计组合可由投票完成,主要还是通过带门限的感知器完成。
(1)贝叶斯:后验加权模型进行平均和估计。
(2)Bagging:自助训练数据集采集多数投票或平均。
(3)随机森林:在被组合树间增加随机成员。
(4)AdaBoost:改变(提升或降低)例子的权重递推构建模型并加权估计。
(5)梯度Boosting:面向回归和分类问题将AdaBoost推广到多种误差函数。
1.2 正则化
目的:防止过拟合,提高泛化能力。原则:精度和简单兼顾
矛盾:高精度->复杂模型
避免过拟合的方法:early stopping、数据集扩增(Data augmentation)、正则化(Regularization)包括L1、L2,dropout。
正则化技术:在误差函数上增加模型复杂性惩罚项,最小化该项提高泛化能力。
L0范数正则化:L0范数是指向量中非0的元素的个数。可以实现稀疏化,但是!!!属于NP难问题。L1范数正则化:即Lasso正则化。L1范数指向量中各个元素绝对值之和,叫“稀疏规则算子”(Lasso regularization),同样可以实现稀疏化。L1范数是L0范数的最优凸近似,而且它比L0范数要容易优化求解。
参数稀疏化的好处:
(1)有利于特征选择(Feature Selection) (2)可解释性(Interpretability)强
L2范数正则化:也称“岭回归”。L2范数是指向量各元素的平方和然后求平方根。让L2范数的规则项||W||2最小,可以使得W的每个元素都很小,都接近于0,限制了参数很小,就限制了多项式某些分量的影响很小。总结:L1会趋向于产生少量的特征,而其他的特征都是0,而L2会选择更多的特征,这些特征都会接近于0。Lasso在特征选择时候非常有用,而Ridge就只是一种规则化而已。在所有特征中只有少数特征起重要作用的情况下,选择Lasso比较合适,因为它能自动选择特征。而如果所有特征中,大部分特征都能起作用,而且起的作用很平均,那么使用Ridge也许更合适。
1.3 Netflix(网飞)奖
加权集成来自多达30个竞争者模型的贡献,赢得最后的机会。 集成方法:Bagging、随机森林、Adaboost、梯度Boosting,大大提高泛化能力。 0 0
- 数据挖掘中的集成方法——通过集成预测来提升精度(读书笔记)
- 数据挖掘中的简单预测
- 数据挖掘-目录-集成算法
- 数据挖掘之集成学习
- 数据挖掘笔记(2)——分类、数值预测
- 大数据管理:数据集成的技术、方法与最佳实践 读书笔记五之实时数据集成
- 数据挖掘(六):预测
- 数据挖掘(六):预测
- 数据挖掘(六):预测
- 数据挖掘在股票预测中的应用
- Spider Studio 数据挖掘集成开发环境
- 使用Titanic 数据集,通过特征筛选的方法一步步提升决策树的预测性能
- 数据挖掘实战经验——交通大数据预测
- 数据挖掘实战——交通大数据预测II
- 机器学习读书笔记(集成学习Boosting方法)
- 集成模型(回归)对Boston数据进行训练并对数据做出预测
- 数据挖掘——之分类和预测总结
- 再谈数据挖掘——时序预测初探
- .NET Framework各版本汇总以及之间的关系
- JavaScript学习--Item2 浮点数精度
- 输入验证标准
- 性能测试需要掌握的
- neutron-dhcp-agent服务启动流程
- 数据挖掘中的集成方法——通过集成预测来提升精度(读书笔记)
- 经营成功的测试职业生涯
- 软件质量的浅谈
- 如何让听众对你的演示感兴趣
- javascript变量作用域
- 如何做好系统测试
- 需求那点事
- 最佳面试问题集锦
- 适合于小团队产品迭代的APP测试流程