Stanford 机器学习 Dimensionality Reduction

来源:互联网 发布:linux查内存 编辑:程序博客网 时间:2024/06/05 10:41

14.3 Principal Component Analysis Problem Formulation

这里写图片描述
我们想要找到的向量是一个向量,并且原样本点到投影后的样本点的距离之和最小。
等价于,使得投影后样本点的方差最大化。
这里写图片描述
将3-d转到2-d时,应该找到两个向量表示这个投影的平面。
这里写图片描述
线性回归和PCA的差别,线性回归优化的是预测值和真实值的距离,而PCA优化的目标是到投影点的距离,并且PCA是不用来预测y值的。

14.4 Principal Component Analysis Algorithm

这里写图片描述
在使用PCA算法之前,要进行预处理,其中 μj 是第j个特征所有值的均值。
这里写图片描述
求出协方差矩阵,并对协方差矩阵进行奇异值分解,分解后选取前k个向量就是我们需要的向量。
这里写图片描述
在这里,主要支出了协方差矩阵的另一个求法,sigma=1mXTX
Ureduce = n*k,xi = n* 1,可以得到zi=UTreducexi = k*1,此时,本来n维的数据就变成了k维。

14.5 Choosing the Number of Principal Components

这里写图片描述
给出了两个参数,第一个参数是数据到映射点的平均距离,第二个是数据的方差。通过两个的比值作为选取k值的标准,如果比例>0.99,我可以称%99的误差被保留了。
这里写图片描述
给出了算这个比例的另一个方式,就是通过奇异值分解后的S矩阵。

14.7 Advice for Applying PCA

1 不要将PCA用于防止过拟合
2 在使用PCA之前,先跑原始数据,仅当需要使用PCA时,再使用。

0 0
原创粉丝点击