统计学习(六):重抽样方法
来源:互联网 发布:鲁迅文学院网络班 编辑:程序博客网 时间:2024/05/17 04:02
重抽样( resampling )主要用于以下三个目的:
(1). 估计样本统计量(如中位数、方差、分位数等)的精度,使用数据的子集( jackknifing )或者样本的有放回抽样( bootstrapping );
(2). 检验时交换数据点的标签;
(3). 使用随机的样本子集,验证模型的有效性。
Bootstrap 方法
基本思想
Bootstrap 是评价统计精度的一种常见方法。它的基本思想是,利用样本的重抽样数据推断总体。由于总体是未知的,因此,样本统计量关于总体值的真实误差也是未知的。在 Bootstrap 重抽样中,总体由样本表示。
设样本
其中,
设统计量
模拟
设样本
设函数
特别地,
因此,可以用模拟的样本均值(方差)代替总体均值(方差)。
bootstrap 方差估计
设样本分布是
(1). 取样本
(2). 计算
(3). 重复(1), (2)
(4). 令
Bootstrap 通常应用于估计一个统计量的分布,不使用正态理论。
交叉验证
交叉验证( cross-validation )是一种模型验证技术,它主要用于估计一个预测模型的准确性。在一个预测问题里,数据集通常分成已知的(训练集)和未知的(检验集)两部分。其中训练集用来训练预测模型,检验集用来检验模型的准确性。
一轮交叉验证,是指首先将样本分割成训练集和检验集两部分,在训练集上建模,在检验集评价分析模型。为了降低变异度,需要做多轮交叉验证,平均评价指标(例如,预测误差)。
交叉验证的常见类型:
- 留p法(Leave-p-out cross validation, LPOCV)
使用p 个观测数据点作为检验集,其余的数据作为训练集。该方法需要学习和验证
- 留一法
在留 p 法中,取 p=1, 即得留一法。
- K倍法
将随机样本随机地分成 K 等份。一个子样本作为检验集,其余 K-1 个子样本作为训练集。交叉验证重复
阅读更多精彩内容,请关注微信公众号“统计学习与大数据”!
- 统计学习(六):重抽样方法
- 一点一点重学统计学(六.完)——抽样方法
- 机器学习方法(七):Kmeans聚类K值如何选,以及数据重抽样方法Bootstrapping
- Apache Spark MLlib学习笔记(三)MLlib统计指标之关联/抽样/汇总
- 独立抽样(MCMC方法)
- 应用统计学与R语言实现学习笔记(四)——抽样方法与抽样分布
- 复习统计(2)-统计量的抽样分布
- 不均衡学习的抽样方法
- 抽样方法
- 抽样方法
- hive 抽样统计
- 参数估计与统计抽样
- 统计量及抽样分布(统计学复习)
- 如何确定抽样统计的最小样本量(附:随机抽样统计的抽样误差Excel计算表格)
- 如何确定抽样统计的最小样本量(附:随机抽样统计的抽样误差Excel计算表格)
- 如何确定抽样统计的最小样本量(附:随机抽样统计的抽样误差Excel计算表格)
- 《统计学习方法》学习笔记六
- Hive学习之抽样(Sampling)
- C#读取Excel 几种方法的体会
- 动态规划-矩阵连乘问题
- 说说 JavaScript 表单脚本之基础知识
- Javascript设计模式 -- 灵活的javascript
- pthread-win32库编译及使用方法注意事项
- 统计学习(六):重抽样方法
- redis配置密码验证
- CString类常用方法----Left(),Mid(),Right()……
- PAT 1079 Total Sales of Supply Chain(树遍历+BFS)
- PHP将Excel导入数据库及数据库数据导出至Excel的方法 亲测
- 单例模式 (二) 延迟加载/"懒汉模式" —— 使用DCL双检查锁机制
- Teamcenter11.2.3.1 安装时遇到的TreeCache无法创建的问题
- 微信支付签名遇到的坑
- Unity 脚本之间的消息传递,事件管理