数据挖掘之聚类分析

来源：互联网发布：nba2016年胜负数据编辑：程序博客网时间：2024/06/05 06:10

聚类分析是依据样本间关联的量度标准将样本自动分成几组，使同一群组内的样本相似，而不同群组的样本相异的一组方法，聚类分析系统的输入是一组样本和一个度量两个样本间相似度（或相异度）的标准，聚类分析的输出是数据集的几个组，这些组构成一个分区或者一个分区结构
聚类分析是根据所度量或感知到的内在特征或相似性，对对象分组或聚类分析的正式研究方法和算法，聚类的样本用度量指标的一个向量来表示，更正式的说法是，用多维空间的一个点表示，同聚类中的样本彼此相似，其相似度高于不同聚类中的样本
聚类分析（无指导分类）的目的是基于未标识类的训练数据集构造判别边界
聚类是一个非常难的问题，因为在n维的数据空间中，数据所揭示出的聚类可以用不同的形状和大小，为了深入研究，数据中聚类的数量常常依据我们观察到的数据的精确度来定
聚类的规范化描述
A: 通过它们的重心或聚类中的一组远点（边界点）表示n维空间的一类点
B: 使用聚类树中的节点图形化地表示一个类
C: 使用样本属性的逻辑表达式表示聚类
大多数聚类算法都基于下面两种方法：
A: 层次聚类
B: 迭代的平方误差分区聚类
层次方法按群组的嵌套顺序组织数据，以树状图或属性结构来表示，平方误差分区算法试图得到一个使类内分散度最小而类间分散度最大的分区，这种方法是非层次的，因为得到的所有类都是在同一个分区水平上的样本群组，为了保证获得最优解，必须检验n维N个样本分成K个聚类的所有可能的分区
相似度的度量
为了规范化相似度的度量标准，在样本空间X的聚类算法中，用一个数据向量表示一个样本x（或特征向量，观察值）
定量特征能够细分成：
A: 连续值（例如实数）B:离散值 C: 区间值
定性特征: A: 名义型或无序型 B: 顺序型
由于相似度是定义聚类的基础，所以同一特征空间中两个模式的相似度标准对大多数聚类算法是必不可少的，因为聚类过程的质量取决于对这个度量标准的选择，所以必须仔细选取
在样本空间中，距离标准可以是度量的或者是拟度量的，用来量化样本的相异度
凝聚层次聚类
在层次聚类分析钟，我们不在输入中指定分类的个数，也就是说，系统的输入，其中X是一组样本，s是相似度的一个度量标准，系统的输出是聚类的层次，大多数层次聚类过程不是基于最优的思想，而是通过反复的改进分区直至收敛，找出一些近似的次优解
层次聚类分析的算法分成两类：分裂算法和凝聚算法
大多数凝聚层次聚类算法都是单链接和全链接算法的变体，这两种基本算法的不同仅在于他们描述一对聚类的相似度方法，在单链接方法中，两个聚类之间的距离是从两个聚类中抽取的没对样本的距离中的最小值，在全链接算法中，两个聚类之间的距离是每对样本的所有距离中的最大值
分区聚类
每个分区聚类算法得到都是一个数据分区，而不像层次方法那样生成树状图等聚类结构，分区方法对于设计大规模数据集的应用占有优势，因为对于大规模数据集，构造树状图的计算非常复杂，分区方法通常通过优化一个局部定义或全局定义来生成聚类，聚类的标准可以是局部的或全局的，全局标准用原型或重心表示每个聚类，然后依据最相似的原型将样本分配给各个聚类
K-平均分区聚类算法是使用方差标准的最简单、最常用的算法，它从一个随机的初始分区开始，根据样本和类间的相似度，将样本重新分配给各聚类，知道满足某个收敛标准未知，但是它对初始分区的选择比较敏感，如果初始分区选择不当，该算法就可能收敛为一个局部最小的标准函数，K-平均算法对噪音和异常点非常敏感，K-中心点方法对于噪音和异常点没有K-中心店算法那么敏感
增量聚类
在有一些应用中，有三个可行的方法解决这个问题：
A: 可以把数据集存储在辅助存储器里，对数据的哥哥自己独立的进行聚类处理，然后合并生成整个数据集的聚类，称为分治方法
B: 可使用增量聚类算法，数据存储在辅助存储器里，一次只把一个数据项转移到主存储器里进行聚类处理，为了缓解空间的限制，把聚类的表述永久的存储在主存储器中
C: 可以并行实现聚类算法，并行计算机的好处是提高了分治方法的效率
DBSCAN算法
基于密度的聚类方法将聚类视为数据空间中对象的密度区域，该区域的对象通过低密度（噪声）区域加以区分，这些区域可以有任意的形状，该方法的关键概念为密度和连接性，这两个概念都根据最近邻的局部分布来度量
DBSCAN基于两个主要的概念：密度可达性和密度可连接性
15.BIRCH算法
BIRCH算法是一种对欧几里德空间中的数据进行聚类分析的有效方法，该算法仅需要扫描一遍数据便能对数据进行有效的聚类处理，能够有效的处理异常点，BIRCH算法以CF和CF树为基础
BIRCH算法的基本思想是：如果样本足够邻近，则应该被分到同一个组中
BIRCH算法的聚类过程包括四个不同的阶段：
A: 阶段1：扫描所有数据并建立初始的内存CF树
B:阶段2：通过建立更小的CF树，简化CF树，以获得需要的大小
C: 阶段3：全局聚类
D: 阶段4：聚类精确化
聚类验证
在以数据表达时，所有聚类算法将会建立聚类，无论聚类中包含数据或不包含数据，因此评价的第一步是评估数据与而不是聚类算法本身，在构建聚类是，那些我们不需要的数据不应当被聚类算法处理
每个聚类算法都会寻找给定数据集合的聚类，无论实际上这些聚类是否存在，因此在应用聚类算法之前，应该按照聚类趋势对数据进行检验，伺候应该对算法生成的聚类进行验证
不存在最佳的聚类算法，因此用户应该对同一数据集应用多种算法

阅读全文

0 0