数据挖掘（三）聚类

来源：互联网发布：软件字体乱码编辑：程序博客网时间：2024/06/07 00:46

聚类是一个将数据集分成若干个簇或类的过程，表示同一类的数据具有高度的相似性。聚类分析（英语：Cluster analysis，亦称为群集分析）是对于统计数据分析的一门技术，在许多领域受到广泛应用，包括机器学习，数据挖掘，模式识别，图像分析以及生物信息。聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集（subset），这样让在同一个子集中的成员对象都有相似的一些属性，常见的包括在坐标系中更加短的空间距离等。一般把数据聚类归纳为一种非监督式学习(No labels for training instances are provide )。聚类主要应用在下面的情况：在没有任何标签的情况下，使我们可以学习关于培训数据的内容。通过聚类，仍然可以学习特征的相似性和分布，这可以用于为监督学习创建丰富的特征空间（如果需要）。

在这之中，可以细分为以下模型：
连接模型：例如，层次聚类基于距离连接构建模型。
质心模型：例如，k-means算法通过单个平均向量表示每个聚类。
分布模型：使用统计分布对聚类进行建模，例如由预期最大化算法使用的多变量正态分布。
密度模型：例如，DBSCAN和OPTICS将簇定义为数据空间中的连接密集区域。
子空间模型：在Biclustering（也称为协同聚类或双模式聚类）中，集群使用集群成员和相关属性建模。
组模型：一些算法不为其结果提供精确的模型，只提供分组信息。
基于图的模型：分为小集团，即图中的节点的子集，使得子集中的每两个节点通过边连接，可以被认为是聚类的原型形式。完全连通性需求的松弛（边缘的一小部分可能丢失）被称为准丛集，如在HCS聚类算法中。

还有可能的更细微的区别，例如：
严格分区聚类：每个对象只属于一个集群
使用异常值严格分区聚类：对象也可以属于无聚类，并且被视为异常值
重叠聚类（也：替代聚类，多视图聚类）：对象可以属于多个聚类; 通常涉及硬簇
分层聚类：属于子集群的对象也属于父集群
子空间聚类：尽管在唯一定义的子空间内的重叠聚类，聚类不期望重叠

聚类通过矩阵来衡量数组中的相似性，衡量矩阵的相似性通常通过距离矩阵来进行度量。而其中对于两个点距离的定义则有多种方式。

0 0