聚类算法综述（4）

来源：互联网发布：p2p局域网限速软件编辑：程序博客网时间：2024/06/16 11:31

原文地址：聚类算法综述（4）作者：hyman

(1)标称变量

标称变量是二元变量的推广，具有多于两个的状态值。如，draw_color是一的标称变量，状态有很多：红色、黄色、绿色、棕色、黑色、白色……。

标称变量之间的相异度可以用简单匹配方法来计算：

d（i，j）=（p-m）/p

这里m是匹配的数目，即对i和j取值相同的变量数目，而p是全部变量的数目。p是全部变量的数目。

(2)序数型变量

序数型变量分离散的序数型变量和连续的序数型变量。其相似度的计算可以用2.1中提到的任何一个距离公式计算。

(3)比例标度型变量

比例标度型变量在非线性的标度取正的度量值，如

Ae^Bt或Ae^-Bt

这里A、B是正常数。

(4)混合型变量

现实中在一个系统数据库中可能有标度变量、二元变量、标称变量、序数型变量或比例标度变量。

可取的方法是将所有的变量一起处理，只进行一个聚类分析。一种技术将不同类型的变量组合在单个相异度矩阵中，把所有意义的变量转换到共同的至于区间[0.0,1.0]上。

3 主要聚类方法的分类

目前聚类算法有很多种。算法的选择取决于数据的类型、聚类的目的和应用。由于各种聚类算法之间存在很多交集，它们之间并不是完全独立的，所以很难对聚类算法进行严格意义上的划分，现就聚类算法的发展进程分为两类：传统的聚类算法和新发展的聚类算法。具体分类如图3-1.