Clustering by fast search and find of density peaks （备注）

来源：互联网发布：女欧 t恤知乎编辑：程序博客网时间：2024/06/06 15:19

算法核心：利用样本点之间的距离求得样本点的密度rho，在利用思想（聚类中心是局部中密度最大的样本点，由密度较低的样本所包围），并求得delta（表示离该样本点最近且密度大于该点的样本点之间的距离，当为局部最大时或为另一聚类中离自己较近的且有比本身大的密度的样本点之间的距离，当为全局最大时给予最大的距离！），然后绘出 decision graph ，很容易将聚类中心和噪声，基本样本点区别开来，或者采用rho*delta 排序后找出聚类中心，并按照最近邻原则将样本点进行分配，至此完成了样本的聚类过程。

其中在求rho的时候选取的阈值Dc将影响算法的性能，及算法对Dc的取值比较敏感，用Dc求取样本点的密度。

作者提出选取Dc使每个样本点在计算密度时能够选取约1%-2%的样本点。

Ryan提出用样本点最近的M个样本点的平均距离作为rho，这样也能取得较好的性能，但是就像Eric Yuan说的M的选取就变的像是black magic！

有人质疑：

1.为什么是选取Dc使得1%-2%的样本点？

2.距离的度量是什么？为什么不给一个距离的例子来阐述选取对距离的度量的标准（图像灰度差，物体的重量差……）？由于距离度量的实际表示不同，同样的数据将产生不用的距离！

作者对此的答案是距离标准的选取是根据个人的实际应用选择最好的度量方式，对于Dc的选取作者认为用Dc做CUT-OFF是没有用高斯核函数的效果好！

0 0