交叉检验---训练数据,验证数据和测试数据
来源:互联网 发布:linux命令行设置中文 编辑:程序博客网 时间:2024/05/22 01:52
本文来自
交叉检验---训练数据,验证数据和测试数据
内容:
最近在Coursera上学习Data Analysis课程,课程论坛中有个帖子针对交叉检验(Cross Validation)中训练数据集(train dataset),验证数据集(Validate dataset)和测试数据集(test dataset)展开讨论,内容挺好的,记录到这里,作为备忘。
交叉检验(Cross Validation)
在数据分析中,有些算法需要利用现有的数据构建模型,比如贝叶斯分类器,决策树,线性回归等,这类算法统称为监督学习(Supervisied Learning)算法。构建模型需要的数据称之为训练数据(Train Data)。
模型构建完后,需要利用数据验证模型的正确性,这部分数据被称为测试数据(Test Data)。测试数据不能用于模型构建之中,只能用于最后检验模型的准确性。
训练数据,验证数据和测试数据
一般做预测分析时,会将数据分为两大部分。一部分是训练数据,用于构建模型,一部分是测试数据,用于检验模型。但是,有时候模型的构建过程中也需要检验模型,辅助模型构建,所以会将训练数据在分为两个部分:1)训练数据;2)验证数据(Validation Data)。验证数据用于负责模型的构建。典型的例子是用K-Fold Cross Validation裁剪决策树,求出最优叶节点数,防止过渡拟合(Overfitting)。下面形式的描述一下前面提到的3类数据:
- 训练数据(Test Data):用于模型构建
- 验证数据(Validation Data):可选,用于辅助模型构建,可以重复使用。
- 测试数据(Test Data):用于检测模型构建,此数据只在模型检验时使用,用于评估模型的准确率。绝对不允许用于模型构建过程,否则会导致过渡拟合。
K次交叉检验(K-Fold Cross Validation)
K次交叉检验的大致思想是将数据大致分为K个子样本,每次取一个样本作为验证数据,取余下的K-1个样本作为训练数据。模型构建后作用于验证数据上,计算出当前错误率。重复K次,将K次错误率平均,得到一个总体的错误率。可以通过整体错误率,估计当前整体数据用于建模的错误率。
举个例子,K = 10(常见情况),求出总体错误率为8.7%。那么将当前的所有数据全部作为训练数据,得到的模型的错误率90%的可能在9.7%左右。
参考资料
- 交叉验证Wik:ihttp://zh.wikipedia.org/wiki/%E4%BA%A4%E5%8F%89%E9%A9%97%E8%AD%89
- Data Analysis on Coursera:https://class.coursera.org/dataanalysis-001/forum/thread?thread_id=2901
- 交叉检验---训练数据,验证数据和测试数据
- 交叉检验---训练数据,验证数据和测试数据
- 交叉检验---训练数据,验证数据和测试数据
- 交叉检验---训练数据,验证数据和测试数据
- 交叉检验---训练数据,验证数据和测试数据
- 训练数据、测试数据和验证数据
- 将数据集切分成“训练-测试数据集”和交叉验证
- 训练数据,验证数据和测试数据的概念(转)
- 机器学习中训练数据集,交叉验证数据集,测试数据集的作用
- 神经网络中训练数据集、验证数据集和测试数据集的区别
- 关于机器学习的训练数据、验证数据和测试数据的形象比喻
- 将读取的数据分为测试数据和训练数据
- sklearn之训练数据和测试数据随机选取
- sklearn中的交叉验证和数据划分
- 数据集预处理,划分为测试数据集合验证数据集
- python机器学习——十次交叉验证训练的数据准备算法
- 对话框数据交换和检验
- Python下的数据处理和机器学习,对数据在线及本地获取、解析、预处理和训练、预测、交叉验证、可视化
- Geekos user.c
- 装apache找了很久的错误
- [总结]FFMPEG视音频编解码零基础学习方法
- Maven之创建项目失败(Could not calculate build plan)-yellowcong
- Linux系统下用命令快捷启动tomcat的脚本
- 交叉检验---训练数据,验证数据和测试数据
- vue-devtools安装
- JPA级联操作
- python安装及IDE推荐
- apk合并安装
- SourceInsight 技巧集锦
- 吴恩达 机器学习笔记八(lecture 8)(神经网络一)
- BZOJ1007 [HNOI2008]水平可见直线 计算几何 单调栈维护上凸包
- Tomcat – Java.Lang.OutOfMemoryError: PermGen Space 处理方法