Stanford机器学习---第十讲. 数据降维

来源：互联网发布：淘宝开店保证金交不了编辑：程序博客网时间：2024/04/30 09:46

转自：点击打开链接

本栏目（Machine learning）包括单参数的线性回归、多参数的线性回归、Octave Tutorial、Logistic Regression、Regularization、神经网络、机器学习系统设计、SVM（Support Vector Machines 支持向量机）、聚类、降维、异常检测、大规模机器学习等章节。内容大多来自Standford公开课machine learning中Andrew老师的讲解和其他书籍的借鉴。（https://class.coursera.org/ml/class/index）

PS: 盼望已久的十一长假就要到了~祝大家国庆快乐，玩的开心！(*^__^*)

第十讲. 降维——Dimensionality Reduction

===============================

（一）、为什么要降维?

（二）、主成分分析Principal Component Analysis (PCA)

（三）、PCA 算法流程

（四）、从压缩数据中恢复原数据

（五）、怎样决定降维个数/主成分个数

（六）、应用PCA进行降维的建议

本章主要讲述应用PCA算法进行数据降维的原理

=====================================

（一）、为什么要降维？

About data：

我们需要一组关于XXX的数据，定义就铺天盖地的来了，百万级个特征拿过来，我们怎么进行机器学习啊？！李航老师在他的博客《机器学习新动向：从人机交互中》中提到，学习精度越高，学习确信度越高，学习模型越复杂，所需要的样本也就越多。样本复杂度满足以下不等式

由此可见，feature太多会造成模型复杂，训练速度过慢，因此我们引入降维。

About Visualization：

多维数据很难进行可视化分析，因此我们需要降维分析。

=====================================

（二）、About Principal Component Analysis (PCA)

PCA 目的：降维——find a low dimension surface on which to project data ~

如图所示，蓝色的点project到红色surface上得到绿点，寻找surface使得两点之间的orthogonal distance总和最小，就是PCA的任务。

PCA 与 Linear Regression 的区别：

1. PCA衡量的是orthogonal distance, 而linear regression是所有x点对应的真实值y=g(x)与估计值f(x)之间的vertical distance距离

2. more general 的解释：PCA中为的是寻找一个surface，将各feature{x1,x2,...,xn}投影到这个surface后使得各点间variance最大（跟y没有关系，是寻找最能够表现这些feature的一个平面）；而Linear Regression是给出{x1,x2,...,xn}，希望根据x去预测y，所以进行回归

=====================================

（三）、PCA 算法流程

假设有m个samples，每个数据有n维。

----------------------------------------数据预处理----------------------------------------

1. 计算各个feature的平均值，计μj ;（X_j⁽ⁱ⁾表示第i个样本的第j维特征的value）

μj = Σ_m X_j⁽ⁱ⁾/m

2. 将每一个feature scaling：将在不同scale上的feature进行归一化；

3. 将特征进行mean normalization

令X_j⁽ⁱ⁾= (X_j⁽ⁱ⁾-μ_j)/s_j

这样呢，我们需要做的就是两件事：

第一，如何寻找这个surface？

第二，给定surface，怎样求点到surface投影的value？

--------------------------------------- PCA算法选取k个主分量----------------------------------------

4. 求n×n的协方差矩阵Σ：

5. 根据SVD求取特征值和特征向量：

[U,S,V] = SVD（Σ）

其中，SVD为奇异值分解（singular value decomposition），在matlab中有函数[U,S,V] = svd(A) 返回一个与A同大小的对角矩阵S（由Σ的特征值组成），两个酉矩阵U和V，且满足= U*S*V'。若A为m×n阵，则U为m×m阵，V为n×n阵。奇异值在S的对角线上，非负且按降序排列。

那么对于方阵Σ呢，就有

Σ = USV'

ΣΣ' = USV'*VS'U' = U(ΣΣ')U'

Σ'Σ = VS'U'*USV' = V(Σ'Σ)V'

i.e. U是ΣΣ'的特征向量矩阵；V是Σ'Σ的特征向量矩阵，都是n*n的矩阵

由于方阵的SVD相当于特征值分解，所以事实上U = V, 即Σ = USU', U是特征向量组成的正交矩阵

我们的目的是，从n维降维到k维，也就是选出这n个特征中最重要的k个，也就是选出特征值最大的k个~so...goto next step

6. 按特征值从大到小排列，重新组织U

如果使用matlab的svd求得特征值，就可以直接跳过这步了，因为该函数返回值中，奇异值在S的对角线上按照降序排列。否则的话应进行排序，并按照该次序找到对应的特征向量重新排列。

7. 选择k个分量

按照第五、六步中讲的svd过后，我们得到了一个n×n的矩阵Σ和U，这时，我们就需要从U中选出k个最重要的分量；即选择前k个特征向量，即为U_reduce, 该矩阵大小为n×k