Density Peak改进(Hierarchical)

来源:互联网 发布:北京宇信科技集团知乎 编辑:程序博客网 时间:2024/05/16 17:59

参考文献:DenPEHC-Density peak based efficient hierarchical clustering(Information Sciences 2016 B)

1、改进:
- DPC是划分聚类(flat clustering),不能发现群组的层次结构
- 能够对大规模、高维数据集(LSHD)进行聚类

2、主要思想
- 利用γ (γ=ρδ),运用线性拟合的方法,选择聚类中心,不需要r人工选择
- 根据γ线寻找stairs以得到群组的层次结构。
- 使用grid granulation,使得DPC能够处理大规模、高维数据

3、DenPEHC
首先选择所有潜在的聚类中心,然后在 γ曲线中确定stairs,最后每一层的中心被用于将leading tree转换成森林,森林中每一颗子树代表一个聚类。

一些符号定义:

这里写图片描述

3.1、确定聚类中心
- 将γ倒序排序:[γs⃗ ,γInd]=sortDescending(γ⃗ )γs⃗ 表示倒序排列后的γ ,γInd表示倒序排列后γ值的索引。
- 对i=N-FitLen–>0,用节点索引为i后的FitLen个点进行线性拟合,求出ai,bi:

γsi=aiIi+bi,其中γi=(γi+1,γi+2,...,γi+l),Ii=(Ii+1,Ii+2,...,Ii+l)

- 求出ai,bi后估计γ ˆi这里写图片描述,当这里写图片描述这里写图片描述时,检测聚类中心的过程停止,γsiγsi为聚类中心的个数。
gamma是按照降序排列的,由于是从尾到头开始拟合,当为预测出的gamma值与实际的gamma值差距较大值时,说明γs索引比此点小的点(包括此点)的gamma值是异常大的(索引比此点大的点gamma值相对小),所以都是中心点,因此聚类的个数即为i。
这里写图片描述

3.2、确定stairs
Ri=γiγi1,i=2->K,K为聚类中心的个数。
如果Ri+mi+m1>StairThreRi+li+l1<=StairThre这里写图片描述,则索引为{i,…,i+m-1}的点构成一个stair。
【a steep decrease must occur at the beginning of a stair, and the decrease in γ within the stair is gentle】
γ最大的点单独不能构成一个stair,γ最大的点可能单独构成一个stair。如下图所示,红色的矩形框代表一个stair。

这里写图片描述

3.3、leading tree
由于DPC根据每个点的parent(Nn)加入到相应的聚类中,因而构成一棵树,称为leading tree。将以聚类中心为根节点的子树分离出来,就构成了一个聚类。

这里写图片描述

3.4、DenPEHC的聚类过程

  • 计算ρ⃗ Nn
  • 通过线性拟合的方法找到所有潜在的聚类中心
  • 分析聚类中心的γ曲线找到stairs
  • 构造leading tree
  • 一步步增加stair,构造不同层次的聚类

这里写图片描述

3.5、异常点检测
计算θ=δρ,选择θ异常大的点,然后去除ρ相对大的点,剩下的就是异常点。

4、DenPEHC聚类大规模、高维数据

这里写图片描述

流程图如下,黑色和白色箭头代表第一轮,绿色箭头表示第而二轮
这里写图片描述

使用grid granulation后,距离计算:
这里写图片描述

其中,xi,ak,m表示第i个点在第k组中第m个属性

2 0
原创粉丝点击