聚类算法概述

来源：互联网发布：新浪模拟炒股软件编辑：程序博客网时间：2024/05/22 12:16

聚类概念

一、聚类概念：

分类是有监督学习，要求事先明确知道各个类别的信息，并且断言所有待分类项都有一个类别与之相对应。但是很多时候上述条件不能满足，尤其是在处理海量数据时，此时可用聚类算法。聚类是无监督学习，聚类不依赖于预定义的类和类标号的训练实例。聚类分析是将物理或抽象对象的集合分成由类似的对象组成的多个类的过程。

比如有一筐你不认识的水果，让你来分类，你可能根据颜色或者形状来分类，这就是聚类的过程，事先不知道是哪一类。给一筐水果，有苹果和梨，你知道是哪一类，也就是样本是有标号的，你会把苹果和梨分别分为一类，而不会根据形状、大小分类。这就是聚类和分类的区别。

更专业的说法，从机器学习的观点，分类技术是一种有指导的学习，即每个训练样本的数据对象已经有类标识，通过学习可以形成表达数据对象与类标识间对应的知识。机器学习中，聚类是一种无指导学习。也就是说，聚类是在预先不知道欲划分类的情况下，根据信息相似度原则进行信息聚类的一种方法。

二、聚类分析中的数据类型

1、相异度矩阵：存储n个对象两两之间的近似性。也叫单模矩阵，行和列代表相同的实体。

相异度矩阵常用的数据类型是区间标度变量，这是一个粗略线性标度的连续度量。

数据的规格化：

取值范围大的属性对距离的影响高于取值范围小的属性。针对这个问题，要对属性值进行规格化。所谓规格化是指将各个属性值按比例映射到相同的取值区间，以平衡各个属性对距离的影响。通常将其映射到[0,1]区间，公式为：

2、二元变量

一个二元变量只有两种状态：0或者1.

3、混合类型变量

4、标称型序数型比例标度型变量

三、聚类分析方法的分类：

1、划分方法：

给定n个对象或数据元祖的数据库，划分方法构建数据的k个划分，每个划分表示一个簇，k<=n。划分方法创建一个初始划分，然后采用迭代重定位技术，尝试通过对象在组间的移动来改进划分。

典型的划分方法有：

K均值算法，其中每个簇都用该簇中对象的均值来表示。均值作为簇的中心，可以是一个虚点。

K中心点算法，其中每个簇用接近簇中心的一个对象来表示。找簇中最中心的点作为簇中心，是一个世纪存在的数据点。

2、层次方法：

3、基于密度的方法：

4、基于网格的方法：

5、基于模型的方法：

6、基于约束的方法：

推广能力：学习机器（学习函数、学习模型、预测函数）对未来输出进行正确预测的能力。

这样对于聚类有了大致的概念，等以后用到哪种方法再详细研究。

0 0