特征选择(二)-聚类变换
来源:互联网 发布:成都工业学院软件 编辑:程序博客网 时间:2024/04/29 20:00
上一讲已经给出了类内距离的概念。
针对这个概念,有人从完全不同的两个角度给出了方法。
这就是聚类变换与K-L变换。本章介绍聚类变换。
降维到底是在干什么?
各个特征(各个分量)对分类来说,其重要性当然是不同的。
舍去不重要的分量,这就是降维。
关键问题是,什么叫不重要?
这就是为什么会有两种不同的变换了。
聚类变换认为:重要的分量就是能让变换后类内距离小的分量。
类内距离小,意味着抱团抱得紧。
可以证明,为了让变换后类内距离小,必须保留方差小的分量,并且赋予更大的权值。
直观上好理解:对于某一类来说,某个分量的观察值会有起伏,这是由观察误差引起的。如果某个数据的方差越小,则表明观察值越可靠。那么,对那些方差小的分量给予较大的权值(这是因为这些分量更可靠),反之给予更小的权值。这样变换后,同类的点就能包得更紧了。
证明一下:为了让变换后类内距离小,必须保留方差小的分量,并且赋予更大的权值。
为简单起见,设这个W阵为对角阵,即先仅仅考虑只改变坐标尺度的变换W。
假定原有向量a和b,属于同一类别。经变换后得
则和之间的距离的平方为:
在交换后的新空间里,同一类点的类内距离的平方为:
其中是样本在变换前沿方向的方差。现在要求出在一定的约束条件下,使其取极小值的矩阵W。下面分两种约束条件来分析:
①约束条件为
运用拉格朗日乘子法,取准则函数:
其中第一项为极小化函数,为乘子。
可得:
代入约束条件:
得
和式的值是个常数,可见
因此方差大的分量,加的权值比较小。
②约束条件为
取准则函数为:
由
可得
代入约束条件:
得
积式的值是个常数,可见
重点就是一句话:聚类变换是沿着类内距离最小的方向降维,这直接导致了保留方差小的分量。
如何聚类变换?
首先,既然要保留方差小的分量,就要把方差小的分量筛选出来。
主轴变换或叫主成分分析(PCA-principal componenet analysis)能解决这个问题
其实就是转轴。通过坐标系的平移和旋转,找到一个分布的主轴方向。如图1所示。
图1
因为协方差矩阵C是个Hermite阵,所以可以酉对角化。
之前已经证明
所以将特征值升序排列,扔掉我们不想要n-m的大特征值。
变换后就能保证取得最小的方差的分量了。
其次就是加权了,在经过变换后,原来的协方差矩阵,变成了由特征值组成的对角阵。虽然已经完成了降维,但是这还不够,不能保证变换后的类内距离是最小的。还需要用乘以W矩阵来完成类内距离最小的目标。W的求法前面其实已经推导了,根据边界条件自由选择。
的协方差矩阵为
得到了,特征选择就已经做完了。
欢迎参与讨论并关注本博客和微博以及知乎个人主页,后续内容继续更新哦~
转载请您尊重作者的劳动,完整保留上述文字以及本文链接,谢谢您的支持!
- 特征选择(二)-聚类变换
- 特征选择(二)-聚类变换
- 特征选择(二)- 聚类变换
- 特征选择(三)-K-L变换
- 特征选择(三)-K-L变换
- 特征选择(三)- K-L变换
- 特征选择之PCA变换
- 特征选择降维聚类变换集群变换KL变换模式识别
- 特征选择方法学习笔记(二)
- <转>Spark MLlib 数据预处理-特征变换(二)
- 《特征工程三部曲》之二:特征选择
- 特征变换(3)小波变换
- 特征变换(5)K-L变换
- 特征变换(1)傅里叶变换
- 特征变换(7)总结
- [Sklearn应用6] Feature Selection 特征选择(二)
- 《西瓜书》笔记11:特征选择方法(二)
- Gabor小波变换的参数选择-面部表情特征
- 最大流Dinic模板
- 高手速成android开源项目【项目篇】
- OCP 1Z0 051 10
- 高手速成android开源项目【developer篇】
- 高手速成android开源项目【blog篇】
- 特征选择(二)-聚类变换
- codeforces 427B
- 求二进制数中高位或低位第一次出现1所在的位置
- 第十一周
- struts2传递json数据给ajax解析
- TCP UDP 经典 4个小例子 实现代码
- C++ Primer Plus巩固 新特性 新理解(2)
- 关于fork()函数的两个返回值
- php(CI框架)+ajax实现类似微博的东东