数据降维方法汇总
来源:互联网 发布:足彩缩水软件 编辑:程序博客网 时间:2024/05/16 08:12
- 数据降维的应用:①降低数据的存储量;②加快机器学习的速度;③数据可视化
- 数据降维的本质: 方差
PCA(主成分分析)
- 简介:principal component analysis,
- 原理:对于一个未知的系统,我们假设它有n个参数。我们想要求出那些参数最重要,而把不重要的参数给抹掉,从而降低参数向量的维数。PCA的问题其实是一个基的变换,使得变换后的数据有着最大的方差。
算法过程:
1)对于一个训练集,20个sample(i=1,2,3,…,20),特征Xi是100维Xi1,Xi2,Xi3,…Xij,…,Xi100,那么它可以建立一个20*100的样本矩阵M。
2)紧接着我们开始求这个样本的协方差矩阵,得到一个20*20的协方差矩阵,计算过程如下:
•先求解出Xi的平均Xav=(∑xi)/20;
•对每一个Xi,计算Xi-Xav,即Mi(第 i 行)变为 Mi-Xav,记为Mn;
•则容易得到协方差矩阵Z为Mn*Mn’( ’ 表示转置 ) 。
3)然后求出这个协方差矩阵Z20x20的特征值和特征向量,一般情况下应该有20个特征值和特征向量,现在根据特征值的大小,取出较大的特征值以及其所对应的特征向量,(假设提取的特征值为较大的5个特征值),那么这5个特征向量就会构成一个20*5的矩阵V,这个矩阵就是我们要求的特征矩阵。4)用Mn’去乘以V,得到一个base矩阵(*),大小为100x5。
5)任取一个样本1x100,乘上这个100*5的特征矩阵,就得到了一个1*5的新的样本,显然每个sample的维数下降了,然后再用这个1x5向量去比较相似性。
MDS(多维尺度分析)
- 简介:multidimensional scaling,根据样本是否可计量,又分为计量多元尺度法(Metric MDS)和非计量多元尺度法(Nonmetric MDS)。
原理:
定义一个距离函数的集合,如下:Δ=⎡⎣⎢δ1,1δ2,1δ3,1δ1,2δ2,2δ3,2δ1,3δ2,3δ3,3⎤⎦⎥
其中δi,j 表示第i个和第j个对象之间的距离,MDS算法的目的是根据上述的Δ 寻找与对象数同样多的向量,使得||xi−xj||≈δi,j ,其中 ||.||为向量的范数,欧式距离之类的东西。mds本质就是找到一个子空间,物体嵌入子空间中,彼此的相似度与Δ类似,即针对相似度的一个优化问题 算法:
原理部分:见博客
ISOMAP(流行学习)
- 基本思想:高维空间发现低维结构
- 产生背景:PCA降维无法发现一些卷维结构
算法过程:
1.通过kNN(k-Nearest Neighbor)找到点的k个最近邻,将它们连接起来构造一张图。
2.通过计算同中各点之间的最短路径,作为点之间的距离dij放入距离矩阵D
3.将D传给经典的MDS算法,得到降维后的结果。RF|DT(随机森林|决策树)
因为随机森林或者决策树的分类规则是属性所含有信息量的多少,so可以目标属性为因变量,需要降维的属性集为自变量,放入随机森林中进行训练,然后输出自变量的feature_importance,选取包含信息量最大的特征子集即可。
缺失值比率 (Missing Values Ratio)
该方法的是基于包含太多缺失值的数据列包含有用信息的可能性较少。因此,可以将数据列缺失值大于某个阈值的列去掉。阈值越高,降维方法更为积极,即降维越少。
低方差滤波 (Low Variance Filter)
与上个方法相似,该方法假设数据列变化非常小的列包含的信息量少。因此,所有的数据列方差小的列被移除。需要注意的一点是:方差与数据范围相关的,因此在采用该方法前需要对数据做
高相关滤波 (High Correlation Filter)
高相关滤波认为当两列数据变化趋势相似时,它们包含的信息也显示。
- 相关系数法 r:
r=∑ni=1(xi−x¯)(yi−y¯)∑ni=1(xi−x¯)2∑ni=1(yi−y¯)2−−−−−−−−−−−−−−−−−−−−−−√
λ 系数
适用于两个定类变量的相关性测定,具有消减误差比例的意义,取值范围0-1,值越大相关性越大
例如:
<反对> 48
20 8
44 56
64 合计 68 52 120
τ 系数τ=∑∑f2uFu−F2unn−∑F2un ρ 系数(斯皮尔曼等级相关系数)
G 系数G=Ns−NdNs+Nd Ns表示同序对;Nd表示异序对 η2 系数η2=∑NiY¯¯¯2i−NY¯¯¯2∑Y2−NY¯¯¯2 Ni−每一类x的单位数 N−全部单位数 Y¯¯¯i−每一类x中Y值的算术平均数 Y¯¯¯全部Y值的算术平均数
反向特征消除 (Backward Feature Elimination)
在该方法中,所有分类算法先用 n 个特征进行训练。每次降维操作,采用 n-1 个特征对分类器训练 n 次,得到新的 n 个分类器。将新分类器中错分率变化最小的分类器所用的 n-1 维特征作为降维后的特征集。不断的对该过程进行迭代,即可得到降维后的结果。第k 次迭代过程中得到的是 n-k 维特征分类器。通过选择最大的错误容忍率,我们可以得到在选择分类器上达到指定分类性能最小需要多少个特征
前向特征构造 (Forward Feature Construction)
前向特征构建是反向特征消除的反过程。在前向特征过程中,我们从 1 个特征开始,每次训练添加一个让分类器性能提升最大的特征。前向特征构造和反向特征消除都十分耗时。它们通常用于输入维数已经相对较低的数据集。
- 数据降维方法汇总
- 数据挖掘方法汇总
- 数据分析方法汇总
- 数据SQl分类汇总方法
- Android数据存储方法汇总
- 数据分析方法汇总图
- Android数据传递方法汇总
- 常见数据分析方法汇总
- Oracle导入excel数据方法汇总
- 为数据表添加汇总数据方法
- C#数据导出到Excel方法汇总
- C#数据导出到Excel方法汇总
- Oracle导入excel数据方法汇总
- 手机、数码相机数据丢失恢复方法汇总
- Oracle导入excel数据方法汇总
- Oracle导入excel数据方法汇总
- Oracle导入excel数据方法汇总
- Oracle导入excel数据方法汇总
- Linux 文件IO
- 新疆网络赛 G 题 Query on a string 【kmp/暴力匹配 + 树状数组 + 思维】
- 抽象类与接口和关键字
- connection limit仅对非superuser起作用,对superuser不起作用
- STM32使用Jlink烧写与boot合并烧写的方法
- 数据降维方法汇总
- 统计学术语及解释(一)
- ios 下载图片
- 优雅地使用SharedPreferences
- 日历,带时钟的日历
- yip rules 常用验证规则
- Springmvc+Redis使用jedisTemplete来操作redis的相关配置和代码示例
- 一些奇奇怪怪的,令人抓狂的,很无奈的错误
- 运算符