数据降维方法汇总

来源:互联网 发布:足彩缩水软件 编辑:程序博客网 时间:2024/05/16 08:12
  • 数据降维的应用:①降低数据的存储量;②加快机器学习的速度;③数据可视化
  • 数据降维的本质: 方差

PCA(主成分分析)

  1. 简介:principal component analysis,
  2. 原理:对于一个未知的系统,我们假设它有n个参数。我们想要求出那些参数最重要,而把不重要的参数给抹掉,从而降低参数向量的维数。PCA的问题其实是一个基的变换,使得变换后的数据有着最大的方差。
  3. 算法过程:

    1)对于一个训练集,20个sample(i=1,2,3,…,20),特征Xi是100维Xi1,Xi2,Xi3,…Xij,…,Xi100,那么它可以建立一个20*100的样本矩阵M。
    2)紧接着我们开始求这个样本的协方差矩阵,得到一个20*20的协方差矩阵,计算过程如下:
      •先求解出Xi的平均Xav=(∑xi)/20;
      •对每一个Xi,计算Xi-Xav,即Mi(第 i 行)变为 Mi-Xav,记为Mn;
      •则容易得到协方差矩阵Z为Mn*Mn’( ’ 表示转置 ) 。
    3)然后求出这个协方差矩阵Z20x20的特征值和特征向量,一般情况下应该有20个特征值和特征向量,现在根据特征值的大小,取出较大的特征值以及其所对应的特征向量,(假设提取的特征值为较大的5个特征值),那么这5个特征向量就会构成一个20*5的矩阵V,这个矩阵就是我们要求的特征矩阵。

    4)用Mn’去乘以V,得到一个base矩阵(*),大小为100x5。

    5)任取一个样本1x100,乘上这个100*5的特征矩阵,就得到了一个1*5的新的样本,显然每个sample的维数下降了,然后再用这个1x5向量去比较相似性。

MDS(多维尺度分析)

  1. 简介:multidimensional scaling,根据样本是否可计量,又分为计量多元尺度法(Metric MDS)和非计量多元尺度法(Nonmetric MDS)。
方法 优点 缺点 Metric 精确 耗时,计算成本高 NonMetric 样本尺度为ordinal,简便,直观,应用范围更广 无法知道评估准则,效果较差
  1. 原理:
    定义一个距离函数的集合,如下:

    Δ=δ1,1δ2,1δ3,1δ1,2δ2,2δ3,2δ1,3δ2,3δ3,3

    其中δi,j 表示第i个和第j个对象之间的距离,MDS算法的目的是根据上述的Δ 寻找与对象数同样多的向量,使得 ||xixj||δi,j ,其中 ||.||为向量的范数,欧式距离之类的东西。
    mdsΔ

  2. 算法:

    原理部分:见博客

ISOMAP(流行学习)

  1. 基本思想:高维空间发现低维结构
  2. 产生背景:PCA降维无法发现一些卷维结构
  3. 算法过程:

    1.通过kNN(k-Nearest Neighbor)找到点的k个最近邻,将它们连接起来构造一张图。
    2.通过计算同中各点之间的最短路径,作为点之间的距离dij放入距离矩阵D
    3.将D传给经典的MDS算法,得到降维后的结果。

    RF|DT(随机森林|决策树)

    因为随机森林或者决策树的分类规则是属性所含有信息量的多少,so可以目标属性为因变量,需要降维的属性集为自变量,放入随机森林中进行训练,然后输出自变量的feature_importance,选取包含信息量最大的特征子集即可。

缺失值比率 (Missing Values Ratio)

该方法的是基于包含太多缺失值的数据列包含有用信息的可能性较少。因此,可以将数据列缺失值大于某个阈值的列去掉。阈值越高,降维方法更为积极,即降维越少。

低方差滤波 (Low Variance Filter)

与上个方法相似,该方法假设数据列变化非常小的列包含的信息量少。因此,所有的数据列方差小的列被移除。需要注意的一点是:方差与数据范围相关的,因此在采用该方法前需要对数据做

高相关滤波 (High Correlation Filter)

高相关滤波认为当两列数据变化趋势相似时,它们包含的信息也显示。

1nn

变量类型 相关系数计算方法 数值变量 相关系数 分类变量 λ
τ
ρ
G
η2


  • 相关系数法 r:
    r=ni=1(xix¯)(yiy¯)ni=1(xix¯)2ni=1(yiy¯)2
|r| 0.3以下 0.3-0.5 0.5-0.8 0.8以上 相关程度 轻微相关 低度相关 中度相关 高度相关


  • λ系数

λ=fimFYmNYYm

fimxY
FYmY
YYmY
N

适用于两个定类变量的相关性测定,具有消减误差比例的意义,取值范围0-1,值越大相关性越大
例如:

态度 男 女 合计 容忍
<反对> 48
20 8
44 56
64 合计 68 52 120

λ=(48+44)6412064=0.5


  • τ系数

    τ=f2uFuF2unnF2un

  • ρ系数(斯皮尔曼等级相关系数)

ρ=16D2N(N21)

Dxy

  • G系数

    G=NsNdNs+Nd

    NsNd

  • η2系数

    η2=NiY¯¯¯2iNY¯¯¯2Y2NY¯¯¯2

    Nix
    N
    Y¯¯¯ixY
    Y¯¯¯Y

反向特征消除 (Backward Feature Elimination)

在该方法中,所有分类算法先用 n 个特征进行训练。每次降维操作,采用 n-1 个特征对分类器训练 n 次,得到新的 n 个分类器。将新分类器中错分率变化最小的分类器所用的 n-1 维特征作为降维后的特征集。不断的对该过程进行迭代,即可得到降维后的结果。第k 次迭代过程中得到的是 n-k 维特征分类器。通过选择最大的错误容忍率,我们可以得到在选择分类器上达到指定分类性能最小需要多少个特征

前向特征构造 (Forward Feature Construction)

前向特征构建是反向特征消除的反过程。在前向特征过程中,我们从 1 个特征开始,每次训练添加一个让分类器性能提升最大的特征。前向特征构造和反向特征消除都十分耗时。它们通常用于输入维数已经相对较低的数据集。

原创粉丝点击
热门问题 老师的惩罚 人脸识别 我在镇武司摸鱼那些年 重生之率土为王 我在大康的咸鱼生活 盘龙之生命进化 天生仙种 凡人之先天五行 春回大明朝 姑娘不必设防,我是瞎子 时间短怎么办吃什么呢 婆婆家人给气受怎么办 我想离婚他不离怎么办 我又胖又丑怎么办 吃避孕药变胖了怎么办 熬夜久了眼睛疼怎么办 熬夜眼睛疼肿了怎么办 胡须长的太快怎么办 乳房有小结结该怎么办 我一点胸都没有怎么办 狗狗不愿意睡窝怎么办 狗狗喜欢睡地板怎么办 小金毛不吃狗粮怎么办 孕前没有吃叶酸怎么办 严重少精和畸形怎么办 大学混了四年怎么办 和家人相处很累怎么办 40多岁眼睛花怎么办 侧方停车右边宽怎么办 有公主病的老婆怎么办? 圆通快递太慢了怎么办 美台军舰互停怎么办 安装包删除不掉怎么办 艾灸后皮肤极痒怎么办 拔罐如果有水泡怎么办 拔罐拔出水泡来怎么办 拔罐拔出了水泡怎么办 风湿引起的背疼怎么办 拔罐减肥不瘦怎么办 艾灸后脸上长痘怎么办 艾灸烟大怎么办 湿毛巾 月经推迟一个月了还不来怎么办 埋线了喝酒了怎么办 对待孩子脾气暴燥怎么办 买的新鞋子臭脚怎么办 鞋子臭脚怎么办如何除 惠普803墨盒干了怎么办 酷派手机无命令怎么办 华为手机锁机了怎么办 小孩被蜘蛛咬了怎么办 我是一个不爱说话的人怎么办