聚类论文分析-A Hybrid Approach to Clustering in Big Data

来源：互联网发布：dsp算法大全c语言 pdf 编辑：程序博客网时间：2024/06/05 07:30

谈谈对论文A Hybrid Approach to Clustering in Big Data的理解
在这篇论文中作者提出了一种新的聚类方法，叫clusiVAT算法，并且与 k-means, single pass k-means, online k-means,和clustering using representatives (CURE) 等算法进行了对比。

对聚类的理解

聚类(clustrering)是一种无监督学习方法，主要分成原型聚类(k均值算法，LVQ算法(学习向量量化算法)、高斯混合聚类)密度聚类(DBSCAN算法)、层次聚类(single-linkage算法)。
理解这篇论文需要一些前提知识:

论文中提到的常见聚类算法

常见的由层次聚类算法(hierarchical clustering)，基于簇中心的(centroid-based clustering)聚类算法等。作者用以下四种算法作为参考，来体现clusiVAT算法的优秀之处。
(1):k-means算法
(2):online k-means算法
(3)pass k-means算法
(4)clustering using representatives(CURE)
一些基础知识:
(1) single-linkage clustering，一种层次聚类方法，基于bottom up的聚类方式，聚类时每次将元素最接近的两个cluster归为一类。

论文的主要成就

(1)与上述四种算法在大数据集下比较了clusiVAT算法的性能
(2)在24个 2-D数据集上展示了clusiVAT算法的CPU time和partition accuracy(PA).
(3)为了体现clusiVAT算法对无标签样本的内部聚类性能，作者用Surry大学的indoor office environment energy usage data来做了测试，发现clusiVAT算法有最大的Dunn指数(在clusiVAT算法和其他4种算法之中)。
(4)做Friedman test

clusiVAT算法

clusiVAT算法基于reordered dissimilarity images(RDIs)，也叫作cluster heat maps，那到底是什么意思呢?在图像中，VAT实际上是对由像素组成的非相似矩阵D进行重排序(按照modified MST方法)形成矩阵D*，形成不同的簇，这些簇在图像上看来就像一块斑(dark blocks).
首先来看VAT算法:

按照论文的意思，D*是由D通过modified MST生成的，如图:

标识黄线的部分就是MST的核心了，把最小权值的边保留下来，由于对生成最小生成树的Prim算法理解不深，黄线部分伪代码还是不理解。。。

iVAT算法改进了VAT算法，有更小的时间复杂度O(n^2)
siVAT算法在iVAT和VAT算法的基础上改进得可以处理很大的数据集。

阅读全文

1 1