聚类总结(中)——密度聚类

来源:互联网 发布:gis空间数据库 编辑:程序博客网 时间:2024/06/06 16:22

密度聚类

密度聚类是一种基于密度的聚类方法,基于密度的聚类方法的主要思想是寻找被低密度区域分离的高密度区域。

密度度量

一个点的局部密度有不同的度量方式:
1. 画个圈,数圈内其他点个数是一种方法。
2. 用圈内其他点和给点半径的比值的高斯概率密度形式,对距离核心点距离近的给大权重。
3. 计算圈内距离最小的前n个点到核心点的距离之和。
这里写图片描述

DBSCAN

小时候开玩笑,想要一个人离自己远一点,会说:“以我为圆心,5米为半径,画个圈,圈里不能有你。”这个规则的后果就是,这个人和我的距离至少有5米,他在我周围的密度就是极小。
密度距离中衡量一个点的密度,和以上有相似的逻辑。如果给定半径内包含的点多于给定的阈值,则认为这个点密度大,称为核心点。而如果这个圈内其他点在同样的规则下也是核心点,称这些点密度可达。随着范围不断扩大,不断判断出新的核心点,直到遇到给定半径内,点数小于阈值的点,我们成为边界点。噪音点是即不能被密度可达有不是核心点的点。

DBSCAN优点是允许带噪声,能发现任意形状,不需要预先给定簇数。文本中特别稀疏数据聚类效果可能不太理想。

密度最大值聚类

高局部密度点距离

知道衡量一个点密度的不同种方法后,确定一种方法,就可以得到样本每个点的局部密度。任选一个点a,设局部密度比点a高出最小量的点为点b,点b到点a的距离就是点a高局部密度点距离,记做di。

如果di很大,ρi也很大,说明这点周围环绕很多其他点,并且比他密度大的点离他距离还很远,则认为这个点是一个聚类中心。如图中点10,和点1。
如果di距离很大,ρi很小,说明他离比他密度高的点比较远,这点离群索居,局部密度还不高,则认为这样的点是噪声。如图点26,27,28。
这里写图片描述
找到聚类中心后,再用其他聚类算法聚类。这个算法主要用在寻找聚类中心。

参考:
小象学院,邹博《机器学习V》聚类
http://www.csdn.net/article/2012-07-03/2807073-k-means
http://www.cnblogs.com/leoo2sk/archive/2010/09/20/k-means.html
层次聚类:http://bluewhale.cc/2016-04-19/hierarchical-clustering.html
密度聚类:http://blog.csdn.net/itplus/article/details/10088625
http://blog.csdn.net/google19890102/article/details/37330471

原创粉丝点击