参数估计(续)

来源:互联网 发布:淘宝地区编码在哪填写 编辑:程序博客网 时间:2024/05/17 03:35

特征维度问题

高维数据中包含了大量的冗余并隐藏了重要关系的相关性,降维的目的就是消除冗余,减少被处理数据的数量。

为了提高统计模式识别的正确识别率,人们通常需要采集数量巨大的数据特征,使得原始空间或输入空间的维数可能高达几千维或万维。如果直接在输入空间上进行分类器训练,就可能带来两个棘手的问题:(1)很多在低维空间具有良好性能的分类算法在计算上变得不可行;(2)在训练样本容量一定的前提下,特征维数的增加将使得样本统计特性的估计变得更加困难,从而降低分类器的推广能力或泛化能力,呈现所谓的“过学习”或“过训练”的现象。要避免出现“过学习”的情况,用于统计分类器训练的训练样本个数必须随着维数的增长而呈指数增长,从而造成人们所说的“维数灾难”。解决方法:选取尽可能多的,有用的特征,然后根据需要进行维数约简。降维方法:线性方法和非线性方法。线性降维方法:通过特征的线性组合来降维。本质上是把数据投影到低维线性子空间。两种经典且广泛使用的线性变化方法:主成分分析(PCA)和线性判别分析(LDA)。非线性降维算法:多维度MDS,线性局部嵌入(LLE),局部线性投影(LLP),Laplacian特征映射,Hessian特征映射和等距映射(Isomap)。

2、分类错误率与特征的关系

0 0
原创粉丝点击