聚类 - 4 - 层次聚类、密度聚类(DBSCAN算法、密度最大值聚类)

来源：互联网发布：制作微课软件编辑：程序博客网时间：2024/06/07 19:14

本总结是是个人为防止遗忘而作，不得转载和商用。

层次聚类：

层次聚类的思想有两种：凝聚的层次聚类、分裂的层次聚类。

以有A, B, C, D,E, F, G这7个样本为例。

凝聚的层次聚类

1，将每个对象作为一个簇，这时就有7个簇。

2，自底向上合并接近的簇，假设合并成了三个簇：AB，CDE，FG。

3，重复第二步直到数量达到规定的簇的数量K。

分裂的层次聚类

1，将所有的样本置于一个簇中。

2，逐渐细分成越来越小的簇。

3，重复第二步直到数量达到规定的簇的数量K。

用一幅图描述上面两种就是下图：

密度聚类

思想

密度聚类方法的指导思想是，只要样本点的密度大于某阈值，则将该样本添加到最近的簇中。如：一个中国地图上标着每平方公里的人口密度，于是我们就可以通过这个密度进行聚类，某个地方很密，我就可以认为这个地方是个城市。

优点

这类算法能克服基于距离的算法只能发现“类圆形”(凸)的聚类的缺点，可发现任意形状的聚类，且对噪声数据不敏感。

缺点

计算密度单元的计算复杂度大，因此需要建立空间索引来降低计算量。

下面介绍两种密度聚类算法：DBSCAN算法、密度最大值算法。

DBSCAN算法

它将簇定义为密度相连的点的最大集合，于是能够把具有足够高密度的区域划分为簇，并可在有“噪声”的数据中发现任意形状的聚类。

DBSCAN算法的若干概念

对象的ε-邻域：给定对象在半径ε内的区域。

核心对象：对于给定的数目m，如果一个对象的ε-邻域至少包含m个对象，则称该对象为核心对象。

 直接密度可达：给定一个对象集合D，如果p是在q的ε-邻域内，而q是一个核心对象，我们说对象p从对象q出发是直接密度可达的。

密度可达：如果存在一个对象链p 1p 2 …p n ，p 1 =q，p n =p，对p i ∈D，(1≤i ≤n)，p i+1 是从p i 关于ε和m直接密度可达的，则对象p是从对象q关于ε和m密度可达的。

密度相连：如果对象集合D中存在一个对象o，使得对象p和q是从o关于ε和m密度可达的，那么对象p和q是关于ε和m密度相连的。

簇：一个基于密度的簇是最大的密度相连对象的集合。

噪声：不包含在任何簇中的对象称为噪声。

例子：如下图所示

ε=1cm，m=5，q是一个核心对象，从对象q出发到对象p是直接密度可达的。但注意：从p到q不是直接密度可达，因为p都不是个核心对象。

如上图所示，q直接密度可达p1，p1直接密度可达p，则q到p是密度可达。

如上图所示，O密度可达p，O密度可达q，则p和q密度相连。

DBSCAN算法流程

1，如果一个点p的ε-邻域包含多于m个对象，则创建一个p作为核心对象的新簇；

2，寻找并合并核心对象直接密度可达的对象；

4，没有新点可以更新簇时，算法结束。

由上述描述可知

每个簇至少包含一个核心对象；

非核心对象可以是簇的一部分，构成了簇的边缘(edge)；

包含过少对象的簇被认为是噪声。

密度最大值聚类

我个人感觉这个是用于找聚类中心和异常值的。

密度最大值聚类是一种简洁优美的聚类算法, 可以识别各种形状的类簇, 并且参数很容易确定。

定义：局部密度ρi

d_c是一个截断距离, ρi 即到对象i的距离小于d_c 的对象的个数，即：ρi = 任何一个点以d_c为半径的圆内的样本点的数量

由于该算法只对ρi 的相对值敏感, 所以对d_c的选择是稳健的，一种推荐做法是选择d_c ，使得平均每个点的邻居数为所有点的1%-2%

定义：高局部密度点距离δi(简称“高密距离”(注：该称呼不具代表性))

解释：

对第i个样本，我们可以算其局部密度ρi，第j个样本，我们可以算其局部密度ρj，其他样本点同理比如有：ρ1，ρ2，ρ3。

为了方便说明，假设：ρi= 8，ρ1=9，ρ2=10，ρ3=4，ρj=20.

然后对于第i个样本，将其局部密度和其他所有样本的局部密度作比较，于是乎：

因为ρi < ρ1，所以算算样本i和1之间的距离。

同理，算算i和2之间的距离，j和i之间的距离。

而因为ρi > ρ3，所以样本i和3之间的距离就不算了。

总之就是对于第i个样本，算算密度比它高的样本与其的距离。

最后，在这些距离中取最小的那个，就是高局部密度点距离。

一句话描述就是：

比我高的局部密度点到我的最小距离。(把这句话的黑体字连起来看看)

打个比方：

高局部密度点距离就是在做这个事：如果说局部密度是描述一个人有多少钱的话，那ρi = 8就是在说第i号人有8块钱，其他同理，于是高局部密度点距离就是在找“比我有钱的那个有钱人中离我最近的那个”（找到之后就方便抱大腿了啊）。

簇中心和异常点的识别

于是在上面的基础上，我们就可以选取簇中心和判断异常点了。

簇中心：

那些有着比较大的局部密度ρi和很大的高密距离δi 的点被认为是簇的中心。

什么意思？

如果用国民老公王思聪当做样本的话，那该样本一定有比较大的局部密度ρi，也就是他身边一定有很多人，但比他有钱的人可能离他很远，即有很大的高密距离δi，于是王思聪就是个簇中心。

异常点：

高密距离δi较大但局部密度ρi较小的点是异常点；

比如一个人：他身边没什么人，而且比他有钱的人离他也远，那这个人就有些不对劲了，这个人是隐士？还是离家出走到一个偏远地方？甚至被绑架了？！所以这个人就是个异常点。

其他：

对于密度最大的对象，设臵δi=max(d_ij )(即：该问题中的无穷大)

例子：

如下图所示：

对于左图，计算每个样本的ρi和δi。

1，发现1号样本和10号样本的ρi和δi都大，那就可以怀疑：这两个点难道是聚类中心？答案很明显：是。这样一来就找到聚类中心了，之后用DBCSAN算法正常聚类就可以了。

2，样本28、26、27的ρi很小δi却很大，那就可以怀疑：这三个难道是异常点？答案也很明显：是。

0 0