k-l变换原理

来源：互联网发布：网站域名一年多少钱编辑：程序博客网时间：2024/06/05 19:35

首先，为什么要使用k-l变换呢？因为如果手上的数据过于庞大，我们就需要对这些数据进行筛选，这就涉及到哪些数据该舍弃，哪些不该舍弃呢？这时，k-l就出来了，有了它，我们就可以舍弃一些数据而不会使数据出现较大的偏差。

k-l变换说白了就是找一个矩阵，让原来样本矩阵乘以我们找的这个矩阵，得到一个新的矩阵，新的矩阵比原样本的矩阵少了许多维度，这就完成了数据筛选了，也就是特征提取与降维。而且这个新的矩阵的协方差矩阵除对角线外，其余元素为零。

那么，我们的重点就是找到找到这个矩阵，步骤如下：1 把每个样本数据作为一行组成样本矩阵，样本矩阵的每行都代表一个样本数据。

2 求样本矩阵的协方差矩阵，公式为，s为样本矩阵中心化后的矩阵（就是每列减去每列素的均值），n为样本个数，c为协方差矩阵。

3 根据线代实对称矩阵对角化的内容，求出特征跟和特征向量，对角化后观察对角线上的特征值，把较小的值舍去，这样对应的舍去相对应的特征向量，这个新的特征向量的组合就是我们要求的矩阵。

最后说一说吗每一步的理由。 1 我们筛选的不是某个样本，而是筛选样本中的数据，找出样本中最能代表该样本的数据，就好像张三，李四，王麻子三个样本都有鼻子，三个样本对比时，有鼻子这个特征并不能筛选出张三，李四，王麻子，这个数据就得舍去，但是张三有颗痣，李四和王麻子没有，那么，这个特征值就得被留下。我们把每个样本摆为一排，那么每列则是不同样本对同一件事的反映特征，相差大说明这个事件可以区别不同的样本。

2 样本矩阵的协方差为什么这么求呢？？协方差矩阵中的第一个元素代表样本矩阵第一列与第一列的协方差（等价于第一列的方差），方差公式

，协方差公式，只不过方差是某一列元素的差异关系，协方差是某一列与其他列的差异关系，如一行二列元素代表第一列与第二列的差异关系，由此可知协方差矩阵是个对称矩阵，可对角化。

3 为什么要去较小的值呢？对角线上的特征值反映了各列的差异值，值越大说明该列的不同样本间的值变化很大，说明该列描述的事件可以区分出不同的样本，所以晓得特征值得舍去。为什么要对角化呢？？因为除对角线外协方差矩阵的值都表示各列的关系，就好像要区分张三李四王麻子，本来张三很黑，但张三打了粉底，显得他很白，所以我们的把粉底对张三的影响消除，还原一个真实的张三。

设样本矩阵中心化后样本矩阵为s，找到的变换矩阵为p1，则是s*p1为降维后的矩阵即s1，c为样本矩阵的协方差矩阵

，，可见变换后的矩阵协方差矩阵除对角线外元素为0，且降维，s1的值比原样本的值更具有代表性，这就是特征提取。

3 0