聚类算法之邻居生长器

来源:互联网 发布:网络与信息安全论文 编辑:程序博客网 时间:2024/05/16 01:21

1.综述

常见的聚类算法可分为三类:
1. 中心探索法:反复迭代计算簇中心的距离,直至在设定的阈值范围内的聚类算法。根据中心的不同定义,又可分为K-Means,K-Medoids,K-Medians及模糊聚类(fuzzy clustering)。
2. 树形构造器:先后合并相互距离比较近的类,使其形成一个较大的类,直到最后只有一个。这种方法即为”阶层式聚类”(agglomerative hierarchical clustering),它最终形成一个树状的类。
3. 邻居生长器:它将彼此”足够接近的”数据点连接在一起形成一个簇,直至所有点都被分类。常用的有DBSCAN,OPTICS及DENCLUE算法。
其中邻居生长器又是一种基于密度的聚类算法(Density-Based Clustering Methods),本博客主要介绍邻居生长器的DBSCAN及OPTICS算法。

2.DBSCAN

2.1 名词定义

  1. ε 邻域:pq是数据集中的两个点,点q 属于点 pε 邻域当且仅当两点之间的距离不小于ε
  2. MinPts, 核心点,边界点
    MinPts为用户给定的阈值用于定义簇的一点的ε 邻域至少应有MinPts个点。
    核心点(Core Point)的ε 邻域内至少有MinPts个点;
    边界点(Border Point)的ε 邻域内的点少于MinPts个点
  3. 直接密度可达(directly density-reachable):
    点q直接密度可达点p当且仅当:
    1)qNε(p) ,其中Nε(p) 为点p的ε邻域的点的集合
    2)Card(Nε(p))MinPts,其中Card(Nε(N))为集合N的基数
    综上,点q直接可达点p当且仅当点q在点p的ε领域且点p为核心点
    例如:
    Directly density-reachable points
    若p与q同为核心点,则该直接密度可达的关系具有对称性。
  4. 密度可达(density-reachable):点q密度可达点p当且仅当p与q间有一个直接密度可达链
    例如:
    Density-reachable points
    若p与q同为核心点,则该密度可达的关系具有对称性。
  5. 密度连接(Density-Connected):点p密度连接于点q当且仅当点p与点q同时密度可达于点o
    例如:
    Density-Connected Points
    由此可见,密度连接具有对称性。
    以上定义可用下图表示:
    review of concepts

2.2 算法过程

  1. 随机选取一点p
  2. 检索p的所有密度可达点
  3. 若p为核心点,则新建一个簇
  4. 若p为边界点且p无密度可达点,则DBSCAN选取下一个点
  5. 持续1~4直至无点可检索。

3.OPTICS

3.1名词定义

  1. 核心距离(core-distance):点o的核心距离为使点o为核心点的最小距离εi
  2. 可达距离(reachability-distance): 点p至点o的可达距离是使点o为核心点且点p在点o的ε邻域内。
    例如:
    core-distance and reachability-distance

3.2 算法过程

ControlList ordered by reachability-distance

Reference:
1. Density-based clustering with DBSCAN and OPTICS, Izabela Anna Wowczko
2. OPTICS: Ordering Points To Identify the Clustering Structure
Mihael Ankerst, Markus M. Breunig, Hans-Peter Kriegel, Jörg Sander

0 0
原创粉丝点击