聚类论文分析-A Hybrid Approach to Clustering in Big Data

来源:互联网 发布:dsp算法大全c语言 pdf 编辑:程序博客网 时间:2024/06/05 07:30

谈谈对论文A Hybrid Approach to Clustering in Big Data的理解
在这篇论文中作者提出了一种新的聚类方法,叫clusiVAT算法,并且与 k-means, single pass k-means, online k-means,和clustering using representatives (CURE) 等算法进行了对比。

对聚类的理解

聚类(clustrering)是一种无监督学习方法,主要分成原型聚类(k均值算法,LVQ算法(学习向量量化算法)、高斯混合聚类)密度聚类(DBSCAN算法)、层次聚类(single-linkage算法)。
理解这篇论文需要一些前提知识:

论文中提到的常见聚类算法

常见的由层次聚类算法(hierarchical clustering),基于簇中心的(centroid-based clustering)聚类算法等。作者用以下四种算法作为参考,来体现clusiVAT算法的优秀之处。
(1):k-means算法
(2):online k-means算法
(3)pass k-means算法
(4)clustering using representatives(CURE)
一些基础知识:
(1) single-linkage clustering,一种层次聚类方法,基于bottom up的聚类方式,聚类时每次将元素最接近的两个cluster归为一类。

论文的主要成就

(1)与上述四种算法在大数据集下比较了clusiVAT算法的性能
(2)在24个 2-D数据集上展示了clusiVAT算法的CPU time和partition accuracy(PA).
(3)为了体现clusiVAT算法对无标签样本的内部聚类性能,作者用Surry大学的indoor office environment energy usage data来做了测试,发现clusiVAT算法有最大的Dunn指数(在clusiVAT算法和其他4种算法之中)。
(4)做Friedman test

clusiVAT算法

clusiVAT算法基于reordered dissimilarity images(RDIs),也叫作cluster heat maps,那到底是什么意思呢?在图像中,VAT实际上是对由像素组成的非相似矩阵D进行重排序(按照modified MST方法)形成矩阵D*,形成不同的簇,这些簇在图像上看来就像一块斑(dark blocks).
首先来看VAT算法:

按照论文的意思,D*是由D通过modified MST生成的,如图:
=
标识黄线的部分就是MST的核心了,把最小权值的边保留下来,由于对生成最小生成树的Prim算法理解不深,黄线部分伪代码还是不理解。。。

iVAT算法改进了VAT算法,有更小的时间复杂度O(n^2)
siVAT算法在iVAT和VAT算法的基础上改进得可以处理很大的数据集。

阅读全文
1 1