降维概述（I）

来源：互联网发布：房源中介系统源码编辑：程序博客网时间：2024/04/27 21:42

在现实世界中，很多事物被表示为高维数据——如语音信号，图像，视频，文本文档，手写字母或数字，指纹和高光谱图像等。我们通常需要分析和处理大量的数据，For instance，我们需要鉴别person‘s fingerprint, 通过keyword在网络中搜索文档，去发现图像中某些潜在的模式，从视频中跟踪物体等等。 To complete these tasks， we develop systems to process data。但是，由于数据分布在高维，直接处理会非常复杂和不稳定，以至于 infeasible. 实际上，很多systems只在低维空间中有效。当数据的维度超过了系统处理的限度，数据将无法被处理。因此，为了在这些systems中处理高维数据，必须对数据降维。

降维的典型事件：

Fingerprint identification 指纹识别
Face recognition
Hyperspectral image analysis/processing 高光谱图像分析/处理
Text document classification/search
Data visualization
Data feature extraction数据特征提取

在降维过程中，尽可能保持数据的原始特征以至于新的数据能够被根号的处理或更好的理解

High Dimension Data Acquisition 高维数据采集

In dimensionality reduction (DR), 一个object通常转换为一个向量(also called a point), 然后，这个object集合变成一个数据集，这个数据集是包含所有object的同维向量。Geometrically，一个数据集在欧式空间中表现为一个点群（point cloud）。根据数据处理的目标（the goals of the data processing），一个object集合可能会转换为多个数据集。下面给出一些转换实例：

Collection of Images in Face Recognition

人脸识别算法基于面部表情数据集（facial databases），一个典型的facial databases包含大量来自不同人的facial images，每个人的图像可能处于不同的光照条件，不同的姿态，表情以及不同的年龄。在一个数据集中，所有的图像大小（size）或者说是分辨率（resolution）相同。下图给出了从一个facial databases数据集中提取的部分图像，这些图像可以在www.cs.nyu.edu/˜roweis/data.html中下载：

通常，facial images可以是灰度图或者是彩色图。在DR中，将每一个facial images转换为一个向量。例如，每一个灰度图像的resolution是 N = m x n; 在可以把它拉成一个N维的向量。每个彩色图像可以转换为一个N = m x n x 3 维的向量(彩色图像有R，G，B三个通道)。因此，一个有k张图像的数据集可以表示为，If we want to sort the facial images in the set, we need to reduce the dimension N to 2, such that the two coordinates in the DR space represent two parameters, the pose and face expression respectively.

数据集有多种降维方法，例如，假设作为人脸识别的训练集。k是一个很大的数，假设特征脸方法被用在人脸识别中。这种方法构造一些虚拟的人脸图像a few virtual facial images（(called eigenfaces），则数据集中的所有人脸图像都是他们的线性组合。假设特征脸有s（s<<k）.在这个例子中，我们需要把人脸的个数从k个降到s个。从统计学的角度，需要考虑集合作为一个k维的随机向量，每一个随机变量是它的一幅图像的采样。然后用特征脸的方法将随机变量的维度从k维降到s维。通常需要新的s维的向量有独立成分。

Handwriting Letters and Digits

手写数字和字母转换成向量的方法和人脸图像类似。在手写数字和手写字母的原始图像中，背景用二值数字1表示，字母和数字的部分是0，为了得到稀疏的表示，在转换成二值向量的过程中，0和1互换，因此，一个手写数字或字母的图像转换成一个N维空间中的向量集合。下图是手写数字图像，背景值为0.

在处理时，一个集合通常表示为一个N x k的矩阵，每一列表示一副图像，k是图像的个数。类似于人脸图像，有两个主要的处理任务：识别和分类。通过两个参数分类这样一个集合，我们将其降到两维，而在识别中，我们要将这些数字图像从k维降到s维。

Text Documents

关键字查找是网上的一种常见的搜索方式，为了从搜索结果中分类文档，通常将一个文档转换成一个词项--词频（term-frequency）向量，首先，创建一个关键字字典（keyword dictionary），包含n个关键字。计算每个文档中关键字出现的次数，为文档创建一个n维的term-frequency向量。During the vector conversion for a set of documents, we deploy a few filtering methods to omit empty documents, remove common terms, and sometimes stem the vocabulary.（数据集构建过程中的处理方法）For example, the toolkit developed by McCallum [2] can remove the common terms, and the algorithm developed by Porter [3] can be used to stem vocabulary （处理工具）. Each document vector is then normalized（正则化处理）to a unit vector before further processing. The text document data of four newsgroups（新闻数据集展示）: sci.crypt, sci.med, sci. space, and soc.religion.christian, and the data Reuters-21578: Text Categorization Test Collection Distribution 1.0 can be obtained from www.daviddlewis.com/resources/testcollections/reuters21578/.

Hyperspectral Images

高光谱图像通过高光谱传感器获取，收集地理/地质geological/geographical图像数据作为一系列相同场景图像的集合，每一副图像表示5-10 nm (nanometers)的电磁波谱的一个范围（also called spectral band光谱带），通常，一个高光谱图像的集合包含成百个范围between 350 nm and 3500 nm的电磁波谱的窄小的spectral band。Hyperspectral images 通常形成一个三维的高光谱图像的立方体(or HSI cube) 用于图像处理和分析。如下图：

令表示一个HSI cube, 这里，空间域的叫做感光区域，间隔叫做光谱带的范围。每一个像素的位置，函数叫做栅格像元（raster cell）这里，f(s)实际上就是（x,y）所在像素下，每个频谱区域的值构成的一个向量（有时候也可以说是一条曲线）。图像的一个raster cell叫做spectral radiance curve 光谱折射曲线(or simply called spectral curve).

一个物体的材质在raster cell中可以通过它的spectral curves识别出来。高光谱传感器扫描的一个空间域生成HSI images,这个采样不止一个，例如每个月采样一次。最近，高分辨率的传感器 high-resolution sensors能够捕获每个平方米为一个栅格的图像。

典型的hyperspectral sensors的精确度测量有两种方法。光谱分辨率（which is the width of each band of the captured spectrum）和空间分辨率（which is the size of a raster in an HSI）。因为高光谱传感器能够收集大量非常窄的波段，这使得我们可以识别物体及时只捕获了一小部分像素。spatial resolution contributes to the effectiveness of spectral resolution，这一点很重要。例如，如果空间分辨率很低，多个物体被捕获到一个栅格里面，使得识别物体非常困难。另一方面，如果一个像素覆盖的区域太小，传感器捕获的能量太低使得信噪比（signal-to-noise ratio）过高而不能保持特征的可信度。为了获得高空间分辨率的图像高分辨率（HRI）的黑白或彩色相机被整合到HRI系统中。没有加入HRI的高光谱传感器只能捕获每像素一平方米的图像，而加入HRI的HSI传感器能捕获每平方英寸一像素的图像。

一些HSI数据是免费的，free HSI data的网站有：

Jet Propulsion Laboratory, California Institute of Technology: aviris.jpl.nasa.gov/html/data.html
L. Biehl: https://engineering.purdue.edu/∼biehl/MultiSpec/hyperspectral.html (Purdue University)
Army Geospatial Center: www.agc.army.mil/Hypercube

在DR中，将HSI cube表示为一个矩阵。每一列是一个像素（栅格）的光谱向量，每一行表示从一个波段获取的图像。e.g.如果一个HSI cube 有s个波段和n个栅格，样本集合就是一个s x n的矩阵。 HSI数据可以被认为是一个光谱向量的集合

，亦可以被认为是不同波段图像的集合

，这取决于图像处理的目标。

生成的HSI数据有其特殊的格式，通常包括一个头文件（with the extension .hdr）一个波长描述文件(with the extension.wvl) ，一个数据文件(without extension, or with the extension . dat)。所有这些文件的文件名相同。The head file describes how to read the raw data in the data file, and the wavelength description file provides the wavelength information for each band image.（每个文件的作用）。

Curse of the Dimensionality维度灾难

当我们处理高维数据时，我们会遇到维度灾难，DR是避免它的一种方法。The term curse of the dimensionality was first coined by Bellman [4]，用来描述当（数学）空间维度增加时，分析和组织高维空间（通常有成百上千维），因体积指数增加而遇到各种问题场景。这样的难题在低维空间中不会遇到，如物理空间通常只用三维来建模。举例来说，100个平均分布的点能把一个单位区间以每个点距离不超过0.01采样；而当维度增加到10后，如果以相邻点距离不超过0.01小方格采样一单位超正方体，则需要10²⁰ 个采样点:所以，这个10维的超正方体也可以说是比单位区间大10¹⁸倍。(这个是Richard Bellman所举的例子)

在很多领域中，如采样、组合数学、机器学习和数据挖掘都有提及到这个名字的现象。这些问题的共同特色是当维数提高时，空间的体积提高太快，因而可用数据变得很稀疏。稀疏性对于任何要求有统计学意义的方法而言都是一个问题，为了获得在统计学上正确并且有可靠的结果，用来支撑这一结果所需要的数据量通常随着维数的提高而呈指数级增长。而且，在组织和搜索数据时也有赖于检测对象区域，这些区域中的对象通过相似度属性而形成分组。然而在高维空间中，所有的数据都很稀疏，从很多角度看都不相似，因而平常使用的数据组织策略变得极其低效。

Volume of Cubes and Spheres 立方体和球体体积

当一个度量，如欧几里德距离使用很多坐标来定义时，不同的样本对之间的距离已经基本上没有差别。

一种用来描述高维欧几里德空间的巨型性的方法是将超球体中半径 $r$ 和维数 $d$ 的比例，和超立方体中边长 $2r$ 和等值维数的比例相比较。这样一个球体的体积计算如下： $\frac{2r^d\pi^{d/2}}{d\Gamma(d/2)}$

立方体的体积计算如下： $(2r)^d$

随着空间维度 $d$ 的增加，相对于超立方体的体积来说，超球体的体积就变得微不足道了。这一点可以从当 $d$ 趋于无穷时比较前面的比例清楚地看出： $\frac{\pi^{d/2}}{d2^{d-1}\Gamma(d/2)}\rightarrow 0$

当 $d \rightarrow \infty$ 。因此，在某种意义上，几乎所有的高维空间都远离其中心，或者从另一个角度来看，高维单元空间可以说是几乎完全由超立方体的“边角”所组成的，没有“中部”，这对于理解卡方分布是很重要的直觉理解。给定一个单一分布，由于其最小值和最大值与最小值相比收敛于0，因此，其最小值和最大值的距离变得不可辨别。 $\lim_{d \to \infty} \frac{\operatorname{dist}_\max - \operatorname{dist}_\min}{\operatorname{dist}_\min} \to 0$ .

这通常被引证为距离函数在高维环境下失去其意义的例子。

（来自维基百科http://zh.wikipedia.org/zh/%E7%BB%B4%E6%95%B0%E7%81%BE%E9%9A%BE）

Geometric Structure of High-Dimensional Data and Dimensionality Reduction . Jianzhong Wang

0 0