数据降维方法汇总

来源：互联网发布：足彩缩水软件编辑：程序博客网时间：2024/05/16 08:12

数据降维的应用：①降低数据的存储量；②加快机器学习的速度；③数据可视化
数据降维的本质：方差

PCA（主成分分析）

简介：principal component analysis,
原理：对于一个未知的系统，我们假设它有n个参数。我们想要求出那些参数最重要，而把不重要的参数给抹掉，从而降低参数向量的维数。PCA的问题其实是一个基的变换，使得变换后的数据有着最大的方差。
算法过程：

1）对于一个训练集，20个sample(i=1,2,3,…,20)，特征Xi是100维Xi1,Xi2,Xi3,…Xij,…,Xi100，那么它可以建立一个20*100的样本矩阵M。
2）紧接着我们开始求这个样本的协方差矩阵，得到一个20*20的协方差矩阵，计算过程如下：
  •先求解出Xi的平均Xav=(∑xi)/20;
  •对每一个Xi,计算Xi-Xav,即Mi(第 i 行)变为 Mi-Xav,记为Mn;
  •则容易得到协方差矩阵Z为Mn*Mn’( ’ 表示转置 ) 。
3）然后求出这个协方差矩阵Z20x20的特征值和特征向量，一般情况下应该有20个特征值和特征向量，现在根据特征值的大小，取出较大的特征值以及其所对应的特征向量，（假设提取的特征值为较大的5个特征值），那么这5个特征向量就会构成一个20*5的矩阵V，这个矩阵就是我们要求的特征矩阵。
4）用Mn’去乘以V，得到一个base矩阵（*），大小为100x5。
5）任取一个样本1x100,乘上这个100*5的特征矩阵，就得到了一个1*5的新的样本，显然每个sample的维数下降了，然后再用这个1x5向量去比较相似性。

MDS（多维尺度分析）

简介：multidimensional scaling，根据样本是否可计量，又分为计量多元尺度法（Metric MDS）和非计量多元尺度法（Nonmetric MDS）。

方法优点缺点 Metric 精确耗时，计算成本高 NonMetric 样本尺度为ordinal，简便，直观，应用范围更广无法知道评估准则，效果较差

原理：
定义一个距离函数的集合，如下：
$Δ = ⎡ ⎣ ⎢ δ 1, 1 δ 2, 1 δ 3, 1 δ 1, 2 δ 2, 2 δ 3, 2 δ 1, 3 δ 2, 3 δ 3, 3 ⎤ ⎦ ⎥$
其中δi,j 表示第i个和第j个对象之间的距离，MDS算法的目的是根据上述的Δ 寻找与对象数同样多的向量，使得 ||xi−xj||≈δi,j ,其中 ||.||为向量的范数，欧式距离之类的东西。
mds本质就是找到一个子空间，物体嵌入子空间中，彼此的相似度与Δ类似，即针对相似度的一个优化问题
算法：
原理部分：见博客

ISOMAP（流行学习）

基本思想：高维空间发现低维结构
产生背景：PCA降维无法发现一些卷维结构
算法过程：

1.通过kNN(k-Nearest Neighbor)找到点的k个最近邻，将它们连接起来构造一张图。
2.通过计算同中各点之间的最短路径，作为点之间的距离dij放入距离矩阵D
3.将D传给经典的MDS算法，得到降维后的结果。
RF|DT（随机森林|决策树）
因为随机森林或者决策树的分类规则是属性所含有信息量的多少，so可以目标属性为因变量，需要降维的属性集为自变量，放入随机森林中进行训练，然后输出自变量的feature_importance，选取包含信息量最大的特征子集即可。

缺失值比率 (Missing Values Ratio)

该方法的是基于包含太多缺失值的数据列包含有用信息的可能性较少。因此，可以将数据列缺失值大于某个阈值的列去掉。阈值越高，降维方法更为积极，即降维越少。

低方差滤波 (Low Variance Filter)

与上个方法相似，该方法假设数据列变化非常小的列包含的信息量少。因此，所有的数据列方差小的列被移除。需要注意的一点是：方差与数据范围相关的，因此在采用该方法前需要对数据做归一化处理。

高相关滤波 (High Correlation Filter)

高相关滤波认为当两列数据变化趋势相似时，它们包含的信息也显示。
注意：①相关系数对范围敏感，计算前需做归一化处理
②相关系数有一个明显的缺点，它接近于1的程度与数据组数n相关，当n较小，不能仅凭相关系数判定大小

变量类型相关系数计算方法数值变量相关系数分类变量

λ−两个定类变量

τ−两个定类变量或一个定类一个定序

ρ−两个定序变量

G−两个定序变量

η2−一个定距一个定序变量

相关系数法 r：
$r = \sum n i = 1 ( x i - x ¯ ) ( y i - y ¯ ) \sum n i = 1 ( x i - x ¯ ) 2 \sum n i = 1 ( y i - y ¯ ) 2 - - - - - - - - - - - - - - - - - - - - - - \sqrt$

|r| 0.3以下 0.3-0.5 0.5-0.8 0.8以上相关程度轻微相关低度相关中度相关高度相关

λ系数

λ = \sum f i m - F Y m N - Y Y m

fim−x每一类别中Y分布的众数次数；

FYm−Y边缘分布中的众数次数；

YYm−Y总数；

N−总体单位数

适用于两个定类变量的相关性测定，具有消减误差比例的意义，取值范围0-1，值越大相关性越大
例如：

态度男女合计容忍
<反对> 48
20 8
44 56
64 合计 68 52 120

λ = ( 48 + 44 ) - 64 120 - 64 = 0.5

τ系数
$τ = \sum \sum f 2 u F u - F 2 u n n - \sum F 2 u n$
ρ系数(斯皮尔曼等级相关系数)

ρ = 1 - 6 \sum D 2 N ( N 2 - 1 )

D—表示两变量中，每对x和y等级之差，这个差的正值之和应该等于负值之和

G系数
$G = N s - N d N s + N d$
Ns表示同序对；Nd表示异序对
η2系数
$η 2 = \sum N i Y ¯ ¯ ¯ 2 i - N Y ¯ ¯ ¯ 2 \sum Y 2 - N Y ¯ ¯ ¯ 2$
Ni−每一类x的单位数
N−全部单位数
Y¯¯¯i−每一类x中Y值的算术平均数
Y¯¯¯全部Y值的算术平均数

反向特征消除 (Backward Feature Elimination)

在该方法中，所有分类算法先用 n 个特征进行训练。每次降维操作，采用 n-1 个特征对分类器训练 n 次，得到新的 n 个分类器。将新分类器中错分率变化最小的分类器所用的 n-1 维特征作为降维后的特征集。不断的对该过程进行迭代，即可得到降维后的结果。第k 次迭代过程中得到的是 n-k 维特征分类器。通过选择最大的错误容忍率，我们可以得到在选择分类器上达到指定分类性能最小需要多少个特征

前向特征构造 (Forward Feature Construction)

前向特征构建是反向特征消除的反过程。在前向特征过程中，我们从 1 个特征开始，每次训练添加一个让分类器性能提升最大的特征。前向特征构造和反向特征消除都十分耗时。它们通常用于输入维数已经相对较低的数据集。

阅读全文

1 0