机器学习——特征工程之主成分分析PCA

来源:互联网 发布:c 编程游戏写法 编辑:程序博客网 时间:2024/05/22 14:45

一、PCA简介

1、 定义:主成分分析是一种统计方法,通过正交变换将一组可能存在相关性的变量转换为线性不相关,转换后的这组变量称为主成分。

2、 主要应用场景:数据压缩;消除冗余;消除数据噪声;数据降维,可视化

3、 理论基础:最大投影方差理论、最小投影距离理论和坐标轴相关度理论

4、 直观理解:找出数据里最主要的成分,代替原始数据并使损失尽可能的小

    a) 样本点到超平面的距离足够近

    b) 样本点在这个超平面的投影尽可能的分开


二、PCA的推导:基于最小投影距离

1、 标准化后的m个数据 \{x^{(1)},x^{(2)},⋯,x^{(m)} \}

2、 新坐标系 \{w_{1},w_{2},⋯,w_{m} \} ,w是标准正交基

3、 数据在 n^{'} 维中的投影 z^{(i)} = \{ z_1^{(i)}, z_2^{(i)},⋯,z_{n^{'}}^{(i)} \} ,转换后的变量在原空间中的表示 x ̅^{(i)}=Wz^{(i)}

4、 目标优化函数


5、 公式简化


则目标函数等价于


6、 求解变换矩阵W

    a) 由拉格朗日乘子法可得 J(W)=-tr(W^T XX^T W)+λ(W^T W-I)

    b) 对W求导取零求极值,有 -2XX^T W+2λW=0 ,即 XX^T W=λW

    c) 可知W为的特征向量组成的矩阵, λ 为特征值

三、PCA的推导:基于最大投影方差

1、 符号表义如(二)中所示

2、 任意样本 x^{(i)} ,新坐标系中的投影 W^T x^{(i)} ,投影方差为 W^T XX^T W ,最大投影方差的目标函数如下


3、 求解变换矩阵W(过程同二): XX^T W=(-λ)W

四、PCA算法流程

1、 中心化所有样本数据(标准化)

2、 计算样本集的协方差矩阵

3、 对矩阵进行特征值分解,获得特征值和特征向量

4、 将特征值按照从大到小的顺序排序,选择其中最大的k个特征值对应的特征向量,标准化后组成变换矩阵W

5、 对每个样本进行投影变换以获得新(压缩后)的样本集

原创粉丝点击