聚类论文分析-A Hybrid Approach to Clustering in Big Data
来源:互联网 发布:dsp算法大全c语言 pdf 编辑:程序博客网 时间:2024/06/05 07:30
谈谈对论文A Hybrid Approach to Clustering in Big Data的理解
在这篇论文中作者提出了一种新的聚类方法,叫clusiVAT算法,并且与 k-means, single pass k-means, online k-means,和clustering using representatives (CURE) 等算法进行了对比。
对聚类的理解
聚类(clustrering)是一种无监督学习方法,主要分成原型聚类(k均值算法,LVQ算法(学习向量量化算法)、高斯混合聚类)密度聚类(DBSCAN算法)、层次聚类(single-linkage算法)。
理解这篇论文需要一些前提知识:
论文中提到的常见聚类算法
常见的由层次聚类算法(hierarchical clustering),基于簇中心的(centroid-based clustering)聚类算法等。作者用以下四种算法作为参考,来体现clusiVAT算法的优秀之处。
(1):k-means算法
(2):online k-means算法
(3)pass k-means算法
(4)clustering using representatives(CURE)
一些基础知识:
(1) single-linkage clustering,一种层次聚类方法,基于bottom up的聚类方式,聚类时每次将元素最接近的两个cluster归为一类。
论文的主要成就
(1)与上述四种算法在大数据集下比较了clusiVAT算法的性能
(2)在24个 2-D数据集上展示了clusiVAT算法的CPU time和partition accuracy(PA).
(3)为了体现clusiVAT算法对无标签样本的内部聚类性能,作者用Surry大学的indoor office environment energy usage data来做了测试,发现clusiVAT算法有最大的Dunn指数(在clusiVAT算法和其他4种算法之中)。
(4)做Friedman test
clusiVAT算法
clusiVAT算法基于reordered dissimilarity images(RDIs),也叫作cluster heat maps,那到底是什么意思呢?在图像中,VAT实际上是对由像素组成的非相似矩阵D进行重排序(按照modified MST方法)形成矩阵D*,形成不同的簇,这些簇在图像上看来就像一块斑(dark blocks).
首先来看VAT算法:
按照论文的意思,D*是由D通过modified MST生成的,如图:
标识黄线的部分就是MST的核心了,把最小权值的边保留下来,由于对生成最小生成树的Prim算法理解不深,黄线部分伪代码还是不理解。。。
iVAT算法改进了VAT算法,有更小的时间复杂度O(n^2)
siVAT算法在iVAT和VAT算法的基础上改进得可以处理很大的数据集。
- 聚类论文分析-A Hybrid Approach to Clustering in Big Data
- How to establish a big data platform ?
- A Three-Phase Approach to Document Clustering Based on Topic Significance Degree
- 笔记-2004-2007-A Hybrid Approach to Word Segmentation and POS Tagging
- Data Clustering:A Review
- BigDansing: A System for Big Data Cleansing论文笔记
- Moving Big Data to The Cloud: An Online Cost-Minimizing Approach文章阅读笔记
- 论文笔记之聚类算法Clustering by propagating probabilities between data points
- A Fast Method to Stream Data from Big Data Sources
- Note of big data dummies:Understanding the role of a CMS in big data management
- Using In-Memory Computing to Simplify Big Data Analytics (zz)
- 论文阅读:A Bottom-Up Approach for Automatic Pancreas Segmentation in Abdominal CT Scans
- Avoiding Short-Term Thinking In A World of Big Data
- 读论文:CVPR2012,A unified Approach to Salient Object Detection via Low Rank Maxtrix Recovery
- 【论文笔记】A Foundational Approach to Mining Itemset Utilities from Databases
- 论文《From Facial Parts Responses to Face Detection: A Deep Learning Approach》笔记
- Iterative Quantization: A Procrustean Approach to Learning Binary Codes 论文理解及代码讲解
- 【论文笔记】From Facial Parts Responses to Face Detection: A Deep Learning Approach
- Android中RecyclerView在TV中处理控件焦点移动,EditText值的修改,CheckBox复用等问题解决
- 多年iOS开发经验总结(二)
- truffle部署智能合约
- HDU1698(线段树+延迟标记)
- PHP入门必选
- 聚类论文分析-A Hybrid Approach to Clustering in Big Data
- Android 底部菜单栏(RadioGroup+Fragment)美化
- vim 大法
- 云计算4种主流虚拟技术架构对比分析
- Java开发中的23种设计模式--外观模式
- 项目原型副本(SSM)——用于快速搭建项目
- DexClassLoader和PathClassLoader的区别
- 《SSM框架实战》 使用freemarker的常见问题
- Builder模式