Density Peak改进（Hierarchical）

来源：互联网发布：北京宇信科技集团知乎编辑：程序博客网时间：2024/05/16 17:59

参考文献：DenPEHC-Density peak based efficient hierarchical clustering(Information Sciences 2016 B)

1、改进：
- DPC是划分聚类（flat clustering）,不能发现群组的层次结构
- 能够对大规模、高维数据集(LSHD)进行聚类

2、主要思想
- 利用γ (γ=ρ∗δ)，运用线性拟合的方法，选择聚类中心，不需要r人工选择
- 根据γ曲线寻找stairs以得到群组的层次结构。
- 使用grid granulation，使得DPC能够处理大规模、高维数据

3、DenPEHC
首先选择所有潜在的聚类中心，然后在 γ曲线中确定stairs，最后每一层的中心被用于将leading tree转换成森林，森林中每一颗子树代表一个聚类。

一些符号定义：

3.1、确定聚类中心
- 将γ倒序排序：[γs⃗ ,γInd→]=sortDescending(γ⃗ )，γs⃗ 表示倒序排列后的γ ,γInd→表示倒序排列后γ值的索引。
- 对i=N-FitLen–>0,用节点索引为i后的FitLen个点进行线性拟合，求出ai,bi：

γsi=aiIi+bi,其中

γi=(γi+1,γi+2,...,γi+l),Ii=(Ii+1,Ii+2,...,Ii+l)
- 求出ai,bi后估计 γ ˆi

，

，当

且

时，检测聚类中心的过程停止，

γsi→和

γs→的差分向量，i为聚类中心的个数。
【gamma是按照降序排列的，由于是从尾到头开始拟合，当为预测出的gamma值与实际的gamma值差距较大值时，说明γs→索引比此点小的点（包括此点）的gamma值是异常大的（索引比此点大的点gamma值相对小），所以都是中心点，因此聚类的个数即为i。】
这里写图片描述

3.2、确定stairs
Ri=γi−γi−1，i=2->K，K为聚类中心的个数。
如果Ri+mi+m−1>StairThre且Ri+li+l−1<=StairThre，这里写图片描述 ,则索引为｛i,…,i+m-1}的点构成一个stair。
【a steep decrease must occur at the beginning of a stair, and the decrease in γ within the stair is gentle】
γ最大的点单独不能构成一个stair,γ最大的点可能单独构成一个stair。如下图所示，红色的矩形框代表一个stair。