模式识别-高维空间降维的重要性

来源:互联网 发布:山师教务处网络教育 编辑:程序博客网 时间:2024/05/23 00:01

今天上了一节模式识别课,老师讲了几个结论,关于高维空间降维的重要性:

1.通过公式的推导(这里就不推导了),会发现高维度空间的体积主要分布在壳部和角部。

2.随着维度的增加,体积(Vc(正方形),Vr(圆形))会迅速增加。这样的好处是在样本空间,样本的分布会非常稀疏,不易重叠,利于分类。
然后老师又说了一句话:对高维进行概率密度函数设计特别困难,设计分类器也很困难,所以降维是必须的。
这里的理解是,对于高维空间,人为的靠感觉设定一个超平面是可以的,但是要通过计算机计算设定一个超平面,是很困难的,因为概率密度函数不好的设计,所以要降维。

3.高维度空间样本分布稀疏,导致同类样本分布相对集中,落在一个较低的子空间中,利于投影,不会导致信息丢失。

4.高维度空间的数据抓哟分布在壳部和角部,不是均匀分布在整个空间中。

5.根据中心极限定理,高维空间的数据投影到很低维度的空间中,数据将会呈现正态分布。所以,说降维是对分类有效的。

6.根据一个人fakanage的实验结论:
对于监督分布,设计分类器所需要的样本数量于空间的维度呈现正比例关系。
对于非监督分布,设计分类器所需要的样本数量于空间的维度呈现指数关系。
这就解释了,神经网络的隐藏层的数量不是越多越好,而是要有足够的数据样本作为支持才行。

还有对于高维度空间投影理解:就是让投影的坐标轴为0.