数据分析中的降维方法-PCA
来源:互联网 发布:梦回唐朝 知乎 编辑:程序博客网 时间:2024/06/05 17:41
1.数据的向量表示及降维问题
一般情况下,在数据挖掘和机器学习中,数据被表示为向量,例如
(500,240,25,13,2312.15)T这里用了转置,因为习惯上使用列向量表示一条记录
很多机器学习算法的复杂度和数据的维数有着密切关系,甚至与维数呈指数级关联。实际机器学习中处理成千上万甚至几十万维的情况也并不罕见,在这种情况下,机器学习的资源消耗是不可接受的,因此我们必须对数据进行降维
降维当然意味着信息的丢失,不过鉴于实际数据本身常常存在的相关性,我们可以想办法在降维的同时将信息的损失尽量降低。
2.向量的表示及基变换
既然我们面对的数据被抽象为一组向量,那么下面有必要研究一些向量的数学性质。而这些数学性质将成为后续导出PCA的理论基础。
3.如何理解主成份分析这三个字
比如,原来的样本是30*1000000的维数,就是说我们有30个样本,每个样本有1000000个特征点,这个特征点太多了,我们需要对这些样本的特征点进行降维。那么在降维的时候会计算一个原来样本矩阵的协方差矩阵,这里就是1000000*1000000,然后通过这个1000000*1000000的协方差矩阵计算它的特征值和特征向量,最后获得具有最大特征值的特征向量构成转换矩阵。比如我们的前29个特征值已经能够占到所有特征值的99%以上,那么我们只需要提取前29个特征值对应的特征向量即可。这样就构成了一个1000000*29的转换矩阵,然后用原来的样本乘以这个转换矩阵,就可以得到原来的样本数据在新的特征空间的对应的坐标。30*1000000 * 1000000*29 = 30 *29, 这样原来的训练样本每个样本的特征值的个数就降到了29个
这里的99%前的29维向量,就是原数据集的"主成份"
0 0
- 数据分析中的降维方法-PCA
- 数据分析方法--PCA
- PCA数据降维
- 数据降维(pca)
- 数据降维PCA
- PCA降维方法
- PCA降维方法
- PCA 降维方法
- 降维方法PCA
- PCA降维实例分析
- 数据降维技术——PCA(主成分分析)
- 数据降维1--------PCA主成分分析原理和应用实现
- PYTHON机器学习实战——PCA主成分分析 数据降维
- 机器学习_用PCA主成分分析给数据降维
- 机器学习-python编写主成分分析(PCA)数据降维
- PCA主成分分析实现降维
- 深度学习中的降维操作——PCA(主成分分析)
- 手写数字识别——数据降维(PCA)技术在图像识别中的应用
- AAPT使用
- Unity实现缓慢的LookAt (缓慢旋转对着目标)
- MyBatis环境配置及入门
- ORA-00972: identifier is too long
- 接口interface + 抽象类abstract
- 数据分析中的降维方法-PCA
- UUID做主键,好还是不好?这是个问题。
- HTTP协议概述
- Grep学习笔记
- 关于php高并发解决的一点思路
- 在svn上check out下来的项目没办法使用Ctrl+鼠标键查看关联对象
- 迅搜(xunsearch) PHP的安装与使用
- 关于假如有Thread1、Thread2、Thread3、Thread4四条线程分别统计C、D、E、F四个盘的大小,所有线程都统计完毕交给Thread5线程去做汇总,应当如何实现?
- 手机输入法emoji、颜文字存储