聚类算法综述(4)

来源:互联网 发布:p2p局域网限速软件 编辑:程序博客网 时间:2024/06/16 11:31
原文地址:聚类算法综述(4)作者:hyman

2.2.3 标称型、序数型和比例标度型变量

(1)标称变量

标称变量是二元变量的推广,具有多于两个的状态值。如,draw_color是一的标称变量,状态有很多:红色、黄色、绿色、棕色、黑色、白色……。

标称变量之间的相异度可以用简单匹配方法来计算:

dij=p-m/p

这里m是匹配的数目,即对ij取值相同的变量数目,而p是全部变量的数目。p是全部变量的数目。

(2)序数型变量

序数型变量分离散的序数型变量和连续的序数型变量。其相似度的计算可以用2.1中提到的任何一个距离公式计算。

(3)比例标度型变量

比例标度型变量在非线性的标度取正的度量值,如

AeBtAe-Bt

这里AB是正常数。

(4)混合型变量

现实中在一个系统数据库中可能有标度变量、二元变量、标称变量、序数型变量或比例标度变量。

可取的方法是将所有的变量一起处理,只进行一个聚类分析。一种技术将不同类型的变量组合在单个相异度矩阵中,把所有意义的变量转换到共同的至于区间[0.0,1.0]上。

3 主要聚类方法的分类

目前聚类算法有很多种。算法的选择取决于数据的类型、聚类的目的和应用。由于各种聚类算法之间存在很多交集,它们之间并不是完全独立的,所以很难对聚类算法进行严格意义上的划分,现就聚类算法的发展进程分为两类:传统的聚类算法和新发展的聚类算法。具体分类如图3-1.