LDA数学原理及优缺点

来源：互联网发布：php 反射类编辑：程序博客网时间：2024/05/01 12:12

线性判别分析（Linear Discriminant Analysis，LDA），也称线性判别法，是由Fisher于1936年提出。

基本思想和原理：

通常是指在输入变量上构造线性判别函数的方法，但是它也可以寻求一种变换，使得在某种意义下类间分离性最大，类内分离性最小或相异性最小。

原理：

将高维的模式样本投影到最佳鉴别矢量空间，以达到抽取分类信息和压缩特征空间维数的效果，投影后保证模式样本在新的子空间有最大的类间距离和最小的类内距离，即模式在该空间中有最佳的可分离性。

下面以最简单的两类线性判别分析进行介绍：

基本假设：

给定N个特征为d维的样例

，其中有N1个样本属于类别1， N2个样本属于类别2

目标：

通过投影，想将d维特征降到只有一维，而又要保证类别能够“清晰”地反映在低维数据上

LDA计算过程：

（1）寻找每类样例的均值（中心点）,（i代表类别，此处取1,2，下同）

LDA数学原理及优缺点

（2）求x到w投影后的样本点投影均值

LDA数学原理及优缺点

*投影后的的均值也就是样本中心点的投影

最佳投影方向条件之一：投影后的两样本中心点尽量分离。即：

LDA数学原理及优缺点 J(w)越大越好。

投影中心间距大，投影后两类存在重叠，不利于分类，需要考虑样本点之间的方差

LDA数学原理及优缺点

（3）对投影后的每一类求散列值（scatter）

LDA数学原理及优缺点

*散列值的几何意义是样本点的密集程度，值越大，越分散，反之，越集中。

最佳投影方向条件之二：投影后的两样本之内尽量聚集。即每类的散列值越小越好。

定量描述即为：

LDA数学原理及优缺点

（4）Fisher准则函数化简

LDA数学原理及优缺点

散列值公式展开：

LDA数学原理及优缺点

散列矩阵

LDA数学原理及优缺点

* Sw称为Within-class scatter matrix

对原公式进行替换：

LDA数学原理及优缺点

类似的，对分子进行替换

LDA数学原理及优缺点

*其中SB称为Between-class scatter

那么J(w)最终可以表示为:

LDA数学原理及优缺点

在对w求导之前，需要对分母进行归一化，因为不做归一的话，w扩大任何倍，都成立，就无法确定w。因此我们打算令||W^TS_WW||=1，那么加入拉格朗日乘子后，求导：

LDA数学原理及优缺点

由于对w扩大缩小任何倍不影响结果，因此可以约去两边的未知常数，得到:

只需要求出原始样本的均值和方差就可以求出最佳的方向w，这就是Fisher于1936年提出的线性判别分析。

优点：

1、以标签，类别衡量差异性的有监督降维方式，相对于PCA的模糊性，其目的更明确，更能反映样本间的差异。

缺点：

1、局限性大，受样本种类限制，投影空间的维数最多为样本数量N-1维。

0 0