相似性度量—聚类

来源：互联网发布：中国gdp前三季度数据编辑：程序博客网时间：2024/05/08 22:36

图像分割与特征提取

相似性度量—聚类

前面介绍的分类问题是利用已知类别的样品来构造分类器。其训练集样品是已知类别的，所以又称为有监督学习。在已知类别样品的指导下对单个待测样品进行分类。聚类问题则不同，它事先不了解一批样品中的每一个样品的类别或者其他的先验知识，而唯一的分类根据是样品的特性。利用样品的特性来构造分类器，这种分类称为无监督分类没，通常叫做聚类或集群。

聚类分析是对探测数据进行分类分析的一个工具，许多学科要根据所测得的或感知到的相似性对数据进行分类，把探测数据归入到各个聚合类中，且在同一个聚合类中的模式比不同聚合类中的模式更相似，从而对模式间的相互关系做出估计。聚类分析的结果可以被用来对数据提出初始假设，分类新数据，测试数据的同类型及数据压缩。

聚类算法的重点是寻找特征相似的聚合类。人类是二维的最佳分类器，然而大多数实际问题的解决涉及高维的聚类。对高维空间内的数据的直观解释，其困难是十分明显的。另外，数据也不会服从规则的理想结构，这就是有大量聚类算法出现在文献中的原因。由于在图像中进行聚类分析，一副图像中含有多个物体，需要对不同的物体分割标识。要想对不同物体进行归类，必须掌握以下内容。

1.聚类的基本概念

2.对图像进行分割，找出各个物体，对物体标识。

3.对各个物体进行测量，例如测量出面积、周长等，提取各个物体的特征。

4.根据这些特征，应用聚类算法进行相似性分析，然后归类。

1.聚类的定义

Evertt提出一个聚合类是一些相似的实体集合，而且不同聚合类的实体是不相似的。在一个聚合类内的两个点间的距离小于在这个类内任意点和不在这个类内的另一任意点的距离。聚合类可以被描述成在d维空间内存在较高密度点的连续区域和较低密度点的区域，而较低密度点的区域把其他较高密度点的区域分开。

在模式空间S中，若给定N个样品X1,X2...Xn，聚类的定义为：按照相互类似的程度找到相应的区域

R1,R2...Rk,，对任意Xi归入其中一类，而且不会同时属于两类

选择聚类的方法应以一个理想的聚类概念为基础。然而如果数据不满足由聚类技术所作的假设，则算法不是去发现真实的结构而是在数据上强加上某一种结构。

聚类准则

设有未知类别的N个样品，