模式识别-高维空间降维的重要性

来源：互联网发布：山师教务处网络教育编辑：程序博客网时间：2024/05/23 00:01

今天上了一节模式识别课，老师讲了几个结论，关于高维空间降维的重要性：

1.通过公式的推导（这里就不推导了），会发现高维度空间的体积主要分布在壳部和角部。

2.随着维度的增加，体积（Vc（正方形），Vr（圆形））会迅速增加。这样的好处是在样本空间，样本的分布会非常稀疏，不易重叠，利于分类。
然后老师又说了一句话：对高维进行概率密度函数设计特别困难，设计分类器也很困难，所以降维是必须的。
这里的理解是，对于高维空间，人为的靠感觉设定一个超平面是可以的，但是要通过计算机计算设定一个超平面，是很困难的，因为概率密度函数不好的设计，所以要降维。

3.高维度空间样本分布稀疏，导致同类样本分布相对集中，落在一个较低的子空间中，利于投影，不会导致信息丢失。

4.高维度空间的数据抓哟分布在壳部和角部，不是均匀分布在整个空间中。

5.根据中心极限定理，高维空间的数据投影到很低维度的空间中，数据将会呈现正态分布。所以，说降维是对分类有效的。

6.根据一个人fakanage的实验结论：
对于监督分布，设计分类器所需要的样本数量于空间的维度呈现正比例关系。
对于非监督分布，设计分类器所需要的样本数量于空间的维度呈现指数关系。
这就解释了，神经网络的隐藏层的数量不是越多越好，而是要有足够的数据样本作为支持才行。

还有对于高维度空间投影理解：就是让投影的坐标轴为0.

阅读全文

0 0