特征选择（二）-聚类变换

来源：互联网发布：成都工业学院软件编辑：程序博客网时间：2024/04/29 20:00

上一讲已经给出了类内距离的概念。

针对这个概念，有人从完全不同的两个角度给出了方法。

这就是聚类变换与K-L变换。本章介绍聚类变换。

降维到底是在干什么？

各个特征（各个分量）对分类来说，其重要性当然是不同的。

舍去不重要的分量，这就是降维。

关键问题是，什么叫不重要？

这就是为什么会有两种不同的变换了。

聚类变换认为：重要的分量就是能让变换后类内距离小的分量。

类内距离小，意味着抱团抱得紧。

可以证明，为了让变换后类内距离小，必须保留方差小的分量，并且赋予更大的权值。

直观上好理解：对于某一类来说，某个分量的观察值会有起伏，这是由观察误差引起的。如果某个数据的方差越小，则表明观察值越可靠。那么，对那些方差小的分量给予较大的权值（这是因为这些分量更可靠），反之给予更小的权值。这样变换后，同类的点就能包得更紧了。

证明一下：为了让变换后类内距离小，必须保留方差小的分量，并且赋予更大的权值。

为简单起见，设这个W阵为对角阵，即先仅仅考虑只改变坐标尺度的变换W。

$W = \left( {\begin{array}{*{20}{c}}{{w_{11}}}&O&O\\O& \ddots &O\\O&O&{{w_{nn}}}\end{array}} \right)$

假定原有向量a和b，属于同一类别。经变换后得

$a* = Wa,b* = Wb$

则 $a*$ 和 $b*$ 之间的距离的平方为：

${D^2}\left( {a*,b*} \right) = \sum\limits_{k = 1}^n {{{({a_k}* - {b_k}*)}^2}} = \sum\limits_{k = 1}^n {{w_{kk}}^2{{({a_k}* - {b_k}*)}^2}}$

在交换后的新空间里，同一类点的类内距离的平方为：

${(D*)^2} = 2\sum\limits_{k = 1}^n {{{({w_{kk}}{\sigma _k})}^2}}$

其中 ${\sigma _k}^2$ 是样本 ${x_k}$ 在变换前沿方向的方差。现在要求出在一定的约束条件下，使其取极小值的矩阵W。下面分两种约束条件来分析：

①约束条件为

$\sum\limits_{k = 1}^n {{w_{kk}}} = 1$

运用拉格朗日乘子法，取准则函数：

$S = 2\sum\limits_{k = 1}^n {{{({w_{kk}}{\sigma _k})}^2}} - \rho \sum\limits_{k = 1}^n {({w_{kk}} - 1)}$

其中第一项为极小化函数， $\rho$ 为乘子。

$\frac{{\partial S}}{{\partial {w_{kk}}}} \buildrel \Delta \over = 0$

可得：

$4{\sigma _k}^2{w_{kk}} - \rho = 0 \Rightarrow {w_{kk}} = \frac{\rho }{{4{\sigma _k}^2}}$

代入约束条件：

$\sum\limits_{k = 1}^n {{w_{kk}}} = \rho \bullet \frac{1}{4} \bullet \sum\limits_{k = 1}^n {\frac{1}{{{\sigma _k}^2}}} = 1$

得

$\rho = \frac{4}{{\sum\limits_{k = 1}^n {{\sigma _k}^{ - 2}} }}$

${w_{kk}} = \frac{1}{{{\sigma _k}^2\sum\limits_{k = 1}^n {{\sigma _k}^{ - 2}} }}$

和式的值是个常数，可见

${w_{kk}} \propto \frac{1}{{{\sigma _k}^2}}$

因此方差大的分量，加的权值比较小。

②约束条件为

$\prod\limits_{k = 1}^n {{w_{kk}}} = 1$

取准则函数为：

$S = 2\sum\limits_{k = 1}^n {{{({w_{kk}}{\sigma _k})}^2}} - \rho (\prod\limits_{k = 1}^n {({w_{kk}} - 1)} )$

由

$\frac{{\partial S}}{{\partial {w_{kk}}}} \buildrel \Delta \over = 0$

可得

$4{\sigma _k}^2{w_{kk}} - \rho \frac{{\prod\limits_{k = 1}^n {{w_{kk}}} }}{{{w_{kk}}}} = 0 \Rightarrow {w_{kk}} = \frac{{\sqrt \rho }}{{2{\sigma _k}}}$

代入约束条件：

$\prod\limits_{k = 1}^n {{w_{kk}}} = \frac{{{\rho ^{\frac{n}{2}}}}}{{{2^n}\prod\limits_{k = 1}^n {{\sigma _k}} }} = 1$

得

$\rho = 4{\left[ {\prod\limits_{k = 1}^n {{\sigma _k}} } \right]^{\frac{2}{n}}}$

${w_{kk}} = \frac{1}{{{\sigma _k}}}{\left[ {\prod\limits_{k = 1}^n {{\sigma _k}} } \right]^{\frac{1}{n}}}$

积式的值是个常数，可见

${w_{kk}} \propto \frac{1}{{{\sigma _k}}}$

重点就是一句话：聚类变换是沿着类内距离最小的方向降维，这直接导致了保留方差小的分量。

如何聚类变换？

首先，既然要保留方差小的分量，就要把方差小的分量筛选出来。

主轴变换或叫主成分分析(PCA-principal componenet analysis)能解决这个问题

其实就是转轴。通过坐标系的平移和旋转，找到一个分布的主轴方向。如图1所示。

图1

因为协方差矩阵C是个Hermite阵，所以可以酉对角化。

$\begin{array}{l}AC{A^T} = \Lambda = \left( {\begin{array}{*{20}{c}}{{\lambda _1}}& \cdots &0\\ \vdots & \ddots & \vdots \\0& \cdots &{{\lambda _n}}\end{array}} \right)\\A = {\Phi ^T} = \left( \begin{array}{l}{\Phi _1}^T\\ \vdots \\{\Phi _n}^T\end{array} \right)\end{array}$

之前已经证明

${D^2} = 2trC = 2\sum\limits_{i = 1}^n {{\lambda _i}}$

所以将特征值升序排列，扔掉我们不想要n-m的大特征值。

$\begin{array}{l}{A_{m \times n}} = {\Phi ^T} = \left( \begin{array}{l}{\Phi _1}^T\\ \vdots \\{\Phi _m}^T\end{array} \right)\\{Y_m} = {A_{m \times n}}{X_n}\\{C^ * } = AC{A^T} = \left( {\begin{array}{*{20}{c}}{{\lambda _1}}& \cdots &0\\ \vdots & \ddots & \vdots \\0& \cdots &{{\lambda _m}}\end{array}} \right)\end{array}$

变换后就能保证取得最小的方差的分量了。

$\overline {{D^2}} = 2tr{C^ * } = 2\sum\limits_{i = 1}^m {{\lambda _i}}$

其次就是加权了，在经过变换后，原来的协方差矩阵，变成了由特征值组成的对角阵。虽然已经完成了降维，但是这还不够，不能保证变换后的类内距离是最小的。还需要用乘以W矩阵来完成类内距离最小的目标。W的求法前面其实已经推导了，根据边界条件自由选择。

$\begin{array}{l}{y_m} = {A_{m \times n}} \cdot {X_n}\\{Z_m} = {W_{m \times m}} \cdot {y_m}\end{array}$

${Z_m}$ 的协方差矩阵为

$W{\Lambda _{m \times m}}{W^T}$

得到了 ${Z_m}$ ，特征选择就已经做完了。

欢迎参与讨论并关注本博客和微博以及知乎个人主页，后续内容继续更新哦~

转载请您尊重作者的劳动，完整保留上述文字以及本文链接，谢谢您的支持！

0 0