k-l变换原理

来源:互联网 发布:网站域名一年多少钱 编辑:程序博客网 时间:2024/06/05 19:35


首先,为什么要使用k-l变换呢?因为如果手上的数据过于庞大,我们就需要对这些数据进行筛选,这就涉及到哪些数据该舍弃,哪些不该舍弃呢?这时,k-l就出来了,有了它,我们就可以舍弃一些数据而不会使数据出现较大的偏差。

k-l变换说白了就是找一个矩阵,让原来样本矩阵乘以我们找的这个矩阵,得到一个新的矩阵,新的矩阵比原样本的矩阵少了许多维度,这就完成了数据筛选了,也就是特征提取与降维。而且这个新的矩阵的协方差矩阵除对角线外,其余元素为零。

那么,我们的重点就是找到找到这个矩阵,步骤如下:1 把每个样本数据作为一行组成样本矩阵,样本矩阵的每行都代表一个样本数据。

                                                                                                2 求样本矩阵的协方差矩阵,公式为,s为样本矩阵中心化后的矩阵(就是每列减去每                                                                                                    列素的均值),n为样本个数,c为协方差矩阵。

                                                                                                3 根据线代实对称矩阵对角化的内容,求出特征跟和特征向量,对角化后观察对角线上的特征值,把较小的值舍去,这样                                                                                                     对应的舍去相对应的特征向量,这个新的特征向量的组合就是我们要求的矩阵。

最后说一说吗每一步的理由。 1 我们筛选的不是某个样本,而是筛选样本中的数据,找出样本中最能代表该样本的数据,就好像张三,李四,王麻子三个样本都有鼻子,三个样本对比时,有鼻子这个特征并不能筛选出张三,李四,王麻子,这个数据就得舍去,但是张三有颗痣,李四和王麻子没有,那么,这个特征值就得被留下。我们把每个样本摆为一排,那么每列则是不同样本对同一件事的反映特征,相差大说明这个事件可以区别不同的样本。

                                                     2 样本矩阵的协方差为什么这么求呢??协方差矩阵中的第一个元素代表样本矩阵第一列与第一列的协方差(等价于第一列的方差),方差公式

,协方差公式,只不过方差是某一列元素的差异关系,协方差是某一列与其他列的差异关系,如一行二列元素代表第一列与第二列的差异关系,由此可知协方差矩阵是个对称矩阵,可对角化。

                                                     3 为什么要去较小的值呢?对角线上的特征值反映了各列的差异值,值越大说明该列的不同样本间的值变化很大,说明该列描述的事件可以区分出不同的样本,所以晓得特征值得舍去。为什么要对角化呢??因为除对角线外协方差矩阵的值都表示各列的关系,就好像要区分张三李四王麻子,本来张三很黑,但张三打了粉底,显得他很白,所以我们的把粉底对张三的影响消除,还原一个真实的张三。

设样本矩阵中心化后样本矩阵为s,找到的变换矩阵为p1,则是s*p1为降维后的矩阵即s1,c为样本矩阵的协方差矩阵

,可见变换后的矩阵协方差矩阵除对角线外元素为0,且降维,s1的值比原样本的值更具有代表性,这就是特征提取。


3 0
原创粉丝点击