程序博客网 > c 编程游戏写法

机器学习——特征工程之主成分分析PCA

来源：互联网发布：c 编程游戏写法编辑：程序博客网时间：2024/05/22 14:45

一、PCA简介

1、定义：主成分分析是一种统计方法，通过正交变换将一组可能存在相关性的变量转换为线性不相关，转换后的这组变量称为主成分。

2、主要应用场景：数据压缩；消除冗余；消除数据噪声；数据降维，可视化

3、理论基础：最大投影方差理论、最小投影距离理论和坐标轴相关度理论

4、直观理解：找出数据里最主要的成分，代替原始数据并使损失尽可能的小

a) 样本点到超平面的距离足够近

b) 样本点在这个超平面的投影尽可能的分开

二、PCA的推导：基于最小投影距离

1、标准化后的m个数据 $\{x^{(1)},x^{(2)},⋯,x^{(m)} \}$

2、新坐标系 $\{w_{1},w_{2},⋯,w_{m} \}$ ，w是标准正交基

3、数据在 $n^{'}$ 维中的投影 $z^{(i)} = \{ z_1^{(i)}, z_2^{(i)},⋯,z_{n^{'}}^{(i)} \}$ ，转换后的变量在原空间中的表示 $x ̅^{(i)}=Wz^{(i)}$

4、目标优化函数

5、公式简化

则目标函数等价于

6、求解变换矩阵W

a) 由拉格朗日乘子法可得 $J(W)=-tr(W^T XX^T W)+λ(W^T W-I)$

b) 对W求导取零求极值，有 $-2XX^T W+2λW=0$ ，即 $XX^T W=λW$

c) 可知W为的特征向量组成的矩阵， $λ$ 为特征值

三、PCA的推导：基于最大投影方差

1、符号表义如（二）中所示

2、任意样本 $x^{(i)}$ ，新坐标系中的投影 $W^T x^{(i)}$ ，投影方差为 $W^T XX^T W$ ，最大投影方差的目标函数如下

3、求解变换矩阵W（过程同二）： $XX^T W=(-λ)W$

四、PCA算法流程

1、中心化所有样本数据（标准化）

2、计算样本集的协方差矩阵

3、对矩阵进行特征值分解，获得特征值和特征向量

4、将特征值按照从大到小的顺序排序，选择其中最大的k个特征值对应的特征向量，标准化后组成变换矩阵W

5、对每个样本进行投影变换以获得新（压缩后）的样本集

阅读全文

0 0

c 编程游戏写法

c 编程游戏写法

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子电脑不带蓝牙怎么办 ps3数字版下架了怎么办玩dnf很卡怎么办百度云没字幕怎么办感觉老婆出轨了怎么办艺考身高不够怎么办孕妇呆在家无聊怎么办播音主持身高154怎么办想学播音主持怎么办士兵裸检射精怎么办来大姨妈肚子疼怎么办高考分数太低怎么办高考分数低了怎么办对口高考没考上怎么办高二不想上学怎么办美术联考没过怎么办加拿大留学拒签怎么办买二手房代款怎么办异地买车保养怎么办异地买车保险怎么办买车上异地车牌怎么办我现在急用钱怎么办军人家属被打怎么办车辆提档保险怎么办 4s店买到翻新车怎么办奥迪a5烧机油怎么办高层家里有老鼠怎么办楼层低采光不好怎么办老人去世后土地怎么办汽车大灯太暗怎么办小车大灯不够亮怎么办汽车大灯不够亮怎么办 polo衫领子变形怎么办去香港的签注怎么办租车发生事故怎么办感觉孩子智商低怎么办感觉自己智商低怎么办智力低下的儿童怎么办中戏毕业后怎么办 qq红包被骗了怎么办模特卡交钱被骗怎么办