机器学习入门----以阿里移动推荐算法大赛为例
来源:互联网 发布:js控制视频进度条 编辑:程序博客网 时间:2024/05/18 17:05
http://blog.sina.com.cn/s/blog_4d2f6cf201000cjx.html
一般需要将样本分成独立的三部分训练集(train set),验证集(validation set)和测试集(test set)。其中训练集用来估计模型,验证集用来确定网络结构或者控制模型复杂程度的参数,而测试集则检验最终选择最优的模型的性能如何。一个典型的划分是训练集占总样本的50%,而其它各占25%,三部分都是从样本中随机抽取。
样本少的时候,上面的划分就不合适了。常用的是留少部分做测试集。然后对其余N个样本采用K折交叉验证法。就是将样本打乱,然后均匀分成K份,轮流选择其中K-1份训练,剩余的一份做验证,计算预测误差平方和,最后把K次的预测误差平方和再做平均作为选择最优模型结构的依据。特别的K取N,就是留一法(leave one out)。
http://www.cppblog.com/guijie/archive/2008/07/29/57407.html
这三个名词在机器学习领域的文章中极其常见,但很多人对他们的概念并不是特别清楚,尤其是后两个经常被人混用。Ripley, B.D(1996)在他的经典专著Pattern Recognition and Neural Networks中给出了这三个词的定义。
Training set: A set of examples used for learning, which is to fit the parameters [i.e., weights] of the classifier.
Validation set: A set of examples used to tune the parameters [i.e., architecture, not weights] of a classifier, for example to choose the number of hidden units in a neural network.
Test set: A set of examples used only to assess the performance [generalization] of a fully specified classifier.
显然,training set是用来训练模型或确定模型参数的,如ANN中权值等; validation set是用来做模型选择(model selection),即做模型的最终优化及确定的,如ANN的结构;而 test set则纯粹是为了测试已经训练好的模型的推广能力。当然,test set这并不能保证模型的正确性,他只是说相似的数据用此模型会得出相似的结果。但实际应用中,一般只将数据集分成两类,即training set 和test set,大多数文章并不涉及validation set。
Ripley还谈到了Why separate test and validation sets?
1. The error rate estimate of the final model on validation data will be biased (smaller than the true error rate) since the validation set is used to select the final model.
2. After assessing the final model with the test set, YOU MUST NOT tune the model any further.
- 机器学习入门----以阿里移动推荐算法大赛为例
- 关于2015阿里移动推荐算法大赛的总结(三)——机器学习
- 2015阿里移动推荐算法大赛总结
- 阿里移动推荐算法大赛总结
- 2015阿里移动推荐算法大赛总结
- 关于2015阿里移动推荐算法大赛的总结(二)——推荐算法
- 数据挖掘比赛入门_以去年阿里天猫推荐比赛为例
- 数据挖掘比赛入门_以去年阿里天猫推荐比赛为例
- 阿里推荐大赛:ODPS SQL 入门
- 关于2015阿里移动推荐算法大赛的总结(一)
- 阿里天池大数据之移动推荐算法大赛总结及代码全公布
- 天池新人实战赛----阿里移动推荐算法大赛(离线赛与平台赛)
- 天池新人实战赛----阿里移动推荐算法大赛(御膳房、DTPAI----ODPS初体验)
- 推荐算法和机器学习入门
- 机器学习入门推荐
- [机器学习算法详解]朴素贝叶斯算法—以词集文本分类问题为例
- [机器学习算法详解]EM算法—以词集文本分类问题为例
- 机器学习算法推荐
- 跑偏程序员自学cocos2d-x之一 创建工程
- 外观模式
- wxWidgets学习笔记(5)- wxTextCtrl
- 【Spring实战】—— 13 AspectJ注解切面
- android开发 用线程进行耗时操作,统一处理 第二版
- 机器学习入门----以阿里移动推荐算法大赛为例
- long long超时了,而换成int变成ac了
- so汉化心得
- java多线程问题(上)
- C# struct的陷阱:无法修改“...”的返回值,因为它不是变量
- 理解Thread.Sleep()
- Android中Java和JavaScript交互
- 51nod 1060 最复杂的数(反素数)
- HTML5canvas元素