近邻成分分析(NCA)算法
来源:互联网 发布:淘宝新店装修教程 编辑:程序博客网 时间:2024/05/29 12:44
下面介绍一下交叉验证:
交叉验证是一种用来评价一个统计分析的结果是否可以推广到一个独立的数据集上的技术。主要用于预测,即,想要估计一个预测模型的实际应用中的准确度。它是一种统计学上将数据样本切割成较小子集的实用方法。于是可以先在一个子集上做分析, 而其它子集则用来做后续对此分析的确认及验证。
在给定的建模样本中,拿出大部分样本进行建模型,留小部分样本用刚建立的模型进行预报,并求这小部分样本的预报误差,记录它们的平方加和。这个过程一直进行,直到所有的样本都被预报了一次而且仅被预报一次。把每个样本的预报误差平方加和,称为PRESS(predicted Error Sum of Squares)。
交叉验证的目的:假设分类器或模型有一个或多个未知的参数,并且设这个训练器(模型)与已有样本数据集(训练数据集)匹配。训练的过程是指优化模型的参数,以使得分类器或模型能够尽可能的与训练数据集匹配。然后我们在同一数据集总体中取剩下的部分作为测试数据集。
常见类型的交叉验证:
1、重复随机子抽样验证。
将数据集随机的划分为训练集和测试集。对每一个划分,用训练集训练分类器或模型,用测试集评估预测的精确度。进行多次划分,用均值来表示效能。
优点:与k倍交叉验证相比,这种方法的与k无关。
缺点:有些数据可能从未做过训练或测试数据;而有些数据不止一次选为训练或测试数据。
2、K倍交叉验证(K>=2)。
将样本数据集随机划分为K个子集(一般是均分),将一个子集数据作为测试集,其余的K-1组子集作为训练集;将K个子集轮流作为测试集,重复上述过程,这样得到了K个分类器或模型,并利用测试集得到了K个分类器或模型的分类准确率。用K个分类准确率的平均值作为分类器或模型的性能指标。10-倍交叉证实是比较常用的。
优点:每一个样本数据都即被用作训练数据,也被用作测试数据。避免的过度学习和欠学习状态的发生,得到的结果比较具有说服力。
3、留一法交叉验证。
假设样本数据集中有N个样本数据。将每个样本单独作为测试集,其余N-1个样本作为训练集,这样得到了N个分类器或模型,用这N个分类器或模型的分类准确率的平均数作为此分类器的性能指标。
优点:每一个分类器或模型都是用几乎所有的样本来训练模型,最接近样本,这样评估所得的结果比较可靠。实验没有随机因素,整个过程是可重复的。
缺点:计算成本高,当N非常大时,计算耗时。
- 近邻成分分析(NCA)算法
- (Neighbourhood Components Analysis) NCA 近邻成分分析的学习
- 主成分分析(pca)算法原理
- PCA算法(主成分分析)
- 主成分分析算法
- 主成分分析 PCA算法
- 主成分分析 PCA算法
- 主成分分析 PCA算法
- 主成分分析 PCA算法
- [PCA]主成分分析算法
- 独立成分分析算法(ICA)
- 对主成分分析(PCA)算法的理解2
- 浅谈对主成分分析(PCA)算法的理解
- 聚类算法——主成分分析(PCA)
- 浅谈对主成分分析(PCA)算法的理解
- 浅谈对主成分分析(PCA)算法的理解
- 对KLT,主成分分析(PCA)算法的理解
- 机器学习算法(降维)—主成分分析(PCA)
- WTL for MFC Programmers, Part II - WTL GUI Base Classes
- ios(一) OC基础
- C内存相关的题目总结
- struts2 备忘录
- 遇到问题
- 近邻成分分析(NCA)算法
- POJ 2318 TOYS 二分+叉积
- 多重panel的边框效果
- ListView异步加载图片是非常实用的方法,凡是是要通过网络获取图片资源一般使用这种方法比较好,用户体验好,下面就说实现方法,先贴上主方法的代码:
- 【SGA】sga的物理分配
- 黑马程序员--方法参数传递的方式
- 写这篇文章并不是教大家怎么样用listview异步加载图片,因为这样的文章在网上已经有很多了,比如这位仁兄写的就很好
- ThinkPad家族全系列解析
- SQL优化