特征值与特征向量，PCA和谱聚类

来源：互联网发布：淘宝内衣模特和摄影师编辑：程序博客网时间：2024/05/02 02:03

特征值和特征向量

矩阵的基
- 定义：一个m*n的矩阵可以看成是n个列向量组成，这n个列向量的线性组合构成一个列空间，而通常这n个列向量不是线性无关的，那么求出这n个列向量中不相关的r个，可以称这r列为矩阵列空间的基。
- 基上投影的计算：要准确描述向量，首先要确定一组基，然后给出在基所在的各个直线上的投影值。二维直角坐标系中我们经常省略第一步，而默认以(1,0)和(0,1)为基。对向量在某个基上的投影等于此向量和这个基的内积（即向量的点乘）。
特征值
2.1 特征值的意义
- 矩阵主对角线上的元素表示自身和自身的关系，其他位置的元素aij表示i位置和j位置元素之间的相互关系。特征值问题其实就是选取了一组很好的基，就把矩阵 i位置和j位置元素之间的相互关系消除了。
  -特征值越大，矩阵在对应向量上的方差越大，所含的信息越多。
- 特征值反映了特征向量在变换时的伸缩倍数，反映的是变换的剧烈程度，它的值代表矩阵在基上的投影长度。
特征向量
3.1 特征向量的意义
- 特征向量的引入是为了选取一组很好的基
- 特征向量指明变换的方向
特征值分解
一个变换（矩阵）可由它的所有特征向量完全表示。而每一个向量所对应的特征值，就代表了矩阵在这一向量上的贡献率——说的通俗一点就是能量，可以得到特征值与特征向量，特征值表示的是这个特征到底有多重要，而特征向量表示这个特征是什么，可以将每一个特征向量理解为一个线性的子空间
对于矩阵A这个变换所在的一个n维空间，如果存在n个线性无关的特征向量，我们就能用这n个特征向量作为基来表示这个空间的任意向量！

PCA主成分分析

优化目标：数据的方差最大（数据间的分布越离散），数据间的协方差越小（数据间的相关性越小）。

PCA的算法步骤：
设有m条n维数据。
1）将原始数据按列组成n行m列矩阵X
2）将X的每一行（代表一个属性字段）进行零均值化，即减去这一行的均值
3）求出协方差矩阵C=XXTC
4）求出协方差矩阵的特征值及对应的特征向量
5）将特征向量按对应特征值大小从上到下按行排列成矩阵，取前k行组成矩阵P
6）Y=PXY=PX即为降维到k维后的数据

谱聚类

谱聚类算法的实施过程通常包含以下几个步骤：
1）输入：相似度矩阵S（Rn∗n）、目标聚类数目k （在此之前需要完成两项工作： 1.选择合适的相似度函数，2.选择合适的聚类数目k）
2）构造出相似图及其赋权的邻接矩阵（weighted adjacency matrix）（这一步需要选择：相似图的类型以及相应的参数）
3）计算出相似图的Laplacian矩阵（这一步需要选择：Laplacian矩阵的类型）
4）计算Laplacian矩阵的前k个特征值对应的特征向量，以这k个特征向量为列，拼出新的矩阵Un∗k）
5）视矩阵U的每一行为Rk中的一个点，对这n个点y1，y2，…yn进行k−means聚类，得到k个聚类C1，C2，…Ck
6）输出聚类结果A1,A2,…Ak：yi被分到Cj中的哪一类，xi就被分到相应的Aj类

0 0