聚类方法综述

来源:互联网 发布:移动网络ip地址是什么 编辑:程序博客网 时间:2024/05/29 16:59

引言
由聚类所生成的簇是一组数据对象的集合 ,这些在同一
个簇中的对象彼此相似,而与其他簇 中的对象相异。聚类分
析最大程度地实现类中对象相似度最大、类间对象相似度最
小 。
聚类算法大体可以划分为以下几类l2 “ :(1)基于划分
的方法 (partitioning m ethod)[ 。 ” ;(2)基于 层 次 的
方法 (hierarchical m ethod)C“ ;(3)基于 密度 的方法 (den—
sity-based m ethod)[ ” ;(4 )基 于 网格 的 方法 (grid—based
m ethod )[ ;( 5 ) 基 于 模 型 的 方 法 ( m odel—based m eth—
od)c” ;(6)模糊 聚类方 法 (fuzzy m ethod )[捌 ;(7 )基 于 图
论的方法 ;(8)基于分形 的方法 ;(9)复杂网络聚类方
法 ;(10)仿生法 。s];(11)核 聚类方法[ 。不少 聚类算法是
这些方法 的综合 。
聚类算 法在 工程(如机器学 习、人工智能 、机械工程 、电子
工程)、计算机科学、生医学、地球科学(如遥感)、社会科学(如
心理学)、经济学等领域都有广泛的应用。聚类算法和模式识
别 、模式分类密切相关 ,是模式识别和模式分类的基础。聚类
算法可直接应用于二维多边形剖分_1.36]、三维网格有意义剖
分 。 和图像分割 ]中,为二维多边形物体 、三维网格物体和
图像的识别打下 了基础 。
直接导致数据集聚类结果好坏的因素有 3 个[2 。 :类
数 目的正确获得、决定数据点之间亲密度的距离 函数和高效
优良的聚类算法。因此评价聚类算法的优劣也成为目前聚类
研 究的热点之一 。关 于聚类方 面的研 究 ,主 要集 中在类数 目
的确定 、数据 点间亲密度(距离 函数 )的定义 、开发优 良的 聚类
算法和对聚类算法及聚类结果好坏的评估这 4 点上。本文结
合我们在多边形和网格有意义剖分的工作 ],对聚类算法、距
离函数、类数 目的确定和算法评估这 4 个内容进行了系统的
论述 。
2 聚类算法概述
2.1 聚类算法
2.1.1 基 于划分 的方法
主要有 K -M eans_2_4]、K —m odes[“] 、PA M (Partitioning A —
ro un d M ed oid s )L 、C L A R A ( C lu stering L arg e A pp lica—
tion s )[ 、A P ( A ffinity P ro pag atio n C lu sterin g )[7u、S P E A
(Spectral A nalysis)[g’=39]等聚类算法 。
最经典的聚类算法是 K-M eans,它由 M acQ ueen 于 1967
年提出 。其主要思想是找 出数据 集 的 是个 类 中心 (质心 ),把
数据集划分为 五个类,使得数据集中的数据点与所属类的类
中心的距离平方和最小。该算法对初值敏感,需人工指定类
数 k,优点是算法简单易于实现。K—m odes_1 是 K—M eans算
法的一个延伸 ,主要是 可 处理 分类 属性 数 据 (categorical da—
ta),而不像 K —M eans 那样只能处理数值属性的数据(num eri—
cal data)。K —M eans 和 K -m odes都 不能处理孤立点 (outliers)
情形。PA M (Partitioning A round M edoids)口o]以数据集 中的
实际数据点为 M edoids 进行聚类,而不像 k-m eans 中以质心
(未必恰好是数据集中的数据点)为类中心。PA M 可处理孤
立点等奇异情形,但该算法计算量非常大。
C L A R A [” 和 P A M 方法相似 ,主要是 为 了减 少 P A M 中的计算量。该算法先从数据集中提取一部分数据点作为样
本,然后对样本采用 PA M 算法聚类 ,利用这样的一个思想可
大大减少计算量。
亲密度传播聚类(A ffinity P ropagation clustering ,A P )I7
是 Frey 等人 2007 年提 出的一种聚类算法,该算法快速、有
效。A P 算法经过人脸图像聚类、文本中关键句子选择、基因
片段聚类以及航空路线规划等试验中的测试,证明其不仅聚
类结果更好,而且对于大规模数据集而言,花费时间只有其它
聚类方法的百分之一[ 。对于小规模的数据集,该算法聚类
结果的正确性与效率与其它方法相当或略优,偶尔甚至不
及_8]。A P 算法初始时将所有的数据点都视为潜在的聚类中
心,将两个点之间的欧氏距离的负值设想为吸引度或归属度,
则点 k 对较近的点i 的吸引力比较大,同样点 i认同点k 为其
聚类中心的归属感也较强。这样,数据点 是对其他数据点的
吸引力之和越 大 ,成为聚类 中心 的可能性 也越大 ,反之 可能性
就越小。以此原理出发 ,A P 算法为选出合适的类代表 (类 中
心)而不断从数据点集中搜集和传递有关的消息(M essage) :
为候选的类中心点 k从数据集中每个数据点 i搜集消息R ( ,
)(称为点 k 对点 i 的 responsibility 或 吸引度)来描述数 据点
k 作为数据点 i 的类 中心的适合程度 ;同时收集消息 A (i,忌)
(fg 为点 i对点 k 的 availability 或归 属度 )来描 述数据 点 i选
择数据点 k 作为其类中心的适合程度 。R (i,k)与 A (i,k)越
大,点k 作为最终聚类中心的可能性就越大。A P 算法通过迭
代,循环不断地进行消息的搜集和传递,以产生 m 个高质量
的类中心和对应 的聚类 ,同时聚类的目标函数也得到了最优
化,数据集 中各个数据点也最终归队于各个以类中心为代表
的所属的类。A P 算法并不明确要求指定类数目。但我们在
研究该算法并实际应用时发现,有时对亲密度矩阵的一个微
小扰动就会影响其聚类结果 ,并且有时会出现两个数据点互
为类 中心的情况 。
A P 算法与 K —m eans 算法等同属于 K 中心聚类方法。经
典的 K —m eans 算法的优点是简单、快速而且能有效处理大规
模数据集,然而算法对初始聚类中心的选择敏感且容易陷入
局部极值,因此需要在不同初始化下运行很多次,以寻找一个
相对较好的聚类结果 。但这种 策略也只有在非海量数据 和较
小的类数及某次初始化靠近好的结果时才有效。另外 ,它要
求用户必须事先给出聚类个数 k。A P 算法部分地克服了这
些缺点,其迭代过程不断搜索合适的聚类中心,同时使得聚类
的目标函数 E (c )最优化。若各个类的结构比较紧密 ,算法则
容易保证各个类的亲密度和均比较大,从而能给出比较正确
的聚类结果;但对于比较松散的聚类结构,算法倾向于产生较
多的类来实现 E (C )最大化,这使得算法产生的聚类类数过
多,而不能给出准确的聚类结果。这种不足在很大程度上会
限制其应用范围。
谱分析方法(Spectral Analysis)9I39利用特征值和特征
向量 的方法 对数 据集 中的数据点 进行 聚类 ,取得 了较好 的结
果 ,在聚类和模式分类 、模式识别 、网格剖分(M esh Segm enta—
tion)中得到了广泛的应用。和 A P 方法一样,它同样是对数
据点集的亲密度矩阵 s 进行分析,但聚类时不是直接采用 s
矩阵,而是先计算它的 k 个最大的特征值和特征向量,并利用
它们构建一个对称矩阵 Q ,进而对Q 进行亲密度分析 ,得到数
据集的最终聚类。谱分析方法并不是直接对亲密度矩阵进行
分析而得出分类结果 ,由于它要先计算特征向量,因此计算量
较大,并且也同样需要由用户事先给出聚类个数 k。谱分析
方法得到的包含数据点亲密度信息的矩阵 Q 与原始亲密度
矩阵S 相比,亲密度信息 Q 只是 s 的一个近似,近似的程度和
值 k 相关 ,k 取得 越大 ,Q 和 S 的误差 越小 。k 是用户 指定 的
数据点集最终分类结果的类数,是算法的一个参数。Q 和s
相 比的优势在于 ,对 Q 进行亲密度分 析实 现分类要 比对 S 直
接 进行分析 实现分类 要容易得 多 ,这在极化 理论 中得 到了证
明。我们利用谱分析方法研究 了多边形与网格有意义的剖
分,并在此基础上开发了一个原型系统[1],取得了良好的剖分
结果 。
2.1.2 基 于模 型的方法
基于模型的方法_1 9]主要可以分为两类:一类是利用
混合概率密度分布模型(M ixture M odels)来聚类¨2 ,另一
类是利用 统计 物 理 学 中 的非均 匀 铁磁 模 型 (inhom ogeneous
ferrom agnetic m ode1)的顺磁阶段来聚类l1 。
混合概率密度分布模型聚类法用混合概率密度函数来拟
合数据集,令混合概率密度函数 :

∑ rkf k( f )
一 J
其中, ≥O ,∑ —l,^ 和 分别是混合模型中第 个组成
部分的密度函数和参数,“是数据集中数据点Y 属于第 k 个
组成部分(第 k 个 cluster)的概率。设 Y , z,⋯,Y 是需分类
的数据集,令 鼍一( ,z ),i一1,n ,称之为完全数据(com plete
data),其 中 z 一 (Zi】, 2 ,⋯ ,ZiG ) 是 未 知 部 分 , 一
{1’若 类 ,是一1,2,⋯,G。则对应于“完全数据 , 置 l
0, 否 则 ~ ⋯ ⋯ ⋯ ⋯’ ‘
的对数似然函数,利用著名的 E M 算法[2 8l可迭代计算出 ,
Z-k 及0 等未知参数的近似值,从而由z 的值获得数据集 Y ,
Yz,⋯ ,Y 的一个分 类 。混合 模型 的组 成部 分密 度 函数可 根
据需要选择,较为常用 的有 P oisson 分布、高斯分布、t 分布
等。成份数 G (即数据集的类数)通常可用模型选择的方法来
进行选择,通过计算不同模型所得到的A IC 值(A kaike Infor—
m ar ion C riteria)和 B IC 值 (Bayesian Inform ation C riterion )
加以筛选。若组成成份采用高斯分布,则其参数中的均值
(为第 是类的类中心)、协方差矩阵O”k(揭示了第 k 类的形状和
方位)均可由 E M 算法计算。该算法由于采用了 EM 算法,因
此聚类结果对初值敏感 。
顺磁 聚类法 _1o]利用统计物理学 方法对聚类作 了研 究 ,主
要 利 用 了 非 均 匀 铁 磁 模 型 (inhom ogeneous ferrom agnetic
m ode1)的物理性质。对每一个数据点赋以一个 自旋方向,规
定只有最相邻的数据点之间才会对彼此的 自旋方 向相互影
响。最近邻间的相互影响用自旋关联(spin-spin correlations)
函数值来表示 ,这个模型可用著名的伊辛模型(Ising m ode1)
或 Potts 模型描述。自旋关联值通常用蒙特卡洛方法模拟获
得。当铁磁温度由绝对零度逐步升高到达居里温度时 ,数据
集 (铁磁模 型) 由铁 磁性 阶段 (ferrom agnetic phase)过 渡到顺
磁性阶段 ,这时铁原子(数据点)的 自旋方向由完全有序一致
变成不 同区域局部 一 致状 态 ,数据 集 的 clusters 就显 现 。算
法利用各个数据点处的 自旋关联值 ,在顺磁性阶段(温度 T
在某个范围时)确定所有的 cluster。算法的关键点是确定顺
磁状态临界温度以及用蒙特卡洛方法模拟计算 自旋关联值。算法的特色是把数据点间的距离函数转化为自旋关联值,从
而可处理在密度低的区域两个相邻点虽然距离很小但属于不
同类而在高密区域同样距离却属于同类的情形。另外算法稳
定 ,对初值不敏感 。
2.1.3 基 于分形 的方法
基于分形的方法如 FC (F ractal C lustering)[40,43]等主要
从分形维数着手来完成聚类。FC 算法的基本思想是认为在
同一个 cluster 内部的任何一个数据点的改变都不太可能引
起该 cluster原有分形维数的本质变化。F C 首先采用网格的
聚类算法对数据集的一个样本集进行初始聚类,初始得到的
每一个 cluster要保证有足够多的数据点,以能够计算该 clus—
ter 的分形维数。然后对数据集中未归类的每一个数据点 P ,
计算其插入每一 cluster 后引起的该 cluster 分形维数的变化
值(绝对值),若所有 cluster变化值的最小值大于某一设定的
阈值,则认为此数据点为噪声 ,去除。否则把 户点归类于引
起 cluster分形维数变化最小的那个类。该算法能处理噪声 ,
可处理任意形状的 cluster,能处理高维数据集。
2.1.4 模 糊 聚 类 法
在实际应用中,数据集中的数据点有时并不仅仅只是属
于某一类的,而是同时属于多个类。为处理这个问题,模糊聚
类法[26,44,45]如 FCM 算 法、FBSA 算法 、G ustafson-K essel算
法、G ath-G eva 算法等就应运而生。其中最有代表性的 当属
FC M (Fuzzy C-m eans)算法_2 。F C M 的基 本 思想 是 使 得 目
标函数 J (u ,’,)一∑ ∑ ll坼一 取得最小值,其 中u
一( ) 为模糊剖分矩阵, 表示数据点 属于类 i 的程
度,满足 ∑Uk/一1 且 ≥0。m 是参数,称之为模糊指数
i— l
(fuzzifier)。用迭代法计算模糊剖分矩阵u 和类中心 V 一{ 1

1 ,C},并 由此获得类 中心 和分类 结果。K -m eans 算法、
Fuzzy C -m eans(FC M )算法、G ustafson-K essel 算法和 G ath-
G eva算法最优化的目标函数中只是距离 Il瓢一v 的定义
不同,却导致了它们处理不同 cluster 形状 的能力有强弱。
G ath-G eva 算法和G ustafson K esse[算法比Fuzzy C -m eans算
法 、k-m eans算法 能处理 的 cluster形状更加 丰富 。
2.1.5 其 它聚类 算法
比较 有 代 表 性 的 主 要 有:基 于 层 次 的 C U R ”]、
R O C K [ 和 BIR C H ; ;基 于密 度 的 FD BA ~5 3 、bD BSC A N ~ 、
D BSC A N c 和 ST -D BSC A N E ;基 于网格 的 ST IN G c ;基于
图论的 C L IC K [“ ;复杂网络聚类法[ ;仿生法[。 ]以及核聚
类方法E 。以下对每一类型选其一代表性算法作简要阐述。
C U R E (C lustering U sing R epresentatives)是个层次聚类
算法。其主要思想是在层次聚类的两个类合并过程中,在合
并的 cluster 里适 当选取分布较散的一些样本点 (selecting
w elt scattered points),然后样本点按照设定的收缩率 a ∈[O ,
1]向该 cluster中心收缩后获得该 cluster的代表点集(repre—
sentatives),算法在下 一层 次时 考虑 某两个 cluster 是否 合并
就以它们两者的这些代表点集是否距离最近作为依据。该算
法能很好地处理孤立点问题,并且能处理各种形状的 cluster,
克服 了一些聚类算法只能处理圆形或球形 的 cluster这个问
题 。基 于 密 度 的 D K qC A N (D ensity B ased C lustering A lgo—
rithm )算法的主要思想是一个 cluster 中的每一个点在给定
·
29O ·
半径的邻域内必须至少含有某个给定数目的点,因此它能处
理孤立点,并且只需一个参数值。该算法理论上能处理除两
个 cluster 之间有致密点集相连 (哑铃 状)的任意 形状 的 clus—
ter。基于网格的 ST IN G (Statistical Inform ation G rid)用 层次
结构 的方式把数据 空间划分 为很多个 矩形单 元 (或 网格 ),然
后计算网格里数据点的统计值(包括均值、标准差、最大小值、
分布类型等),并利用这些信息进行聚类。该方法利用层次结
构的矩形单元存储法(下层的单元是上层单元 的子单元),能
较快地进行信息查询从而减少算法的计算量。基于图论的
C L ICK (C luster Identification via C onnectivity K ernels)递 归
地对 图进行最 小权 重分 割(m inim um w eight cut)来 产生 clus—
ters,并假设 cluster 内部和 clusters 之 间的相似度服从不 同均
值和方差的高斯分布 ,均值与方差这些参数值通过最大似然
估计方法或 E M 算法计算获得 。算法主要过程如下 :对一个
图,首先用递归最小权重分割法得到各个 cluster 的内核(ker—
ned ,内核中的每一个数据点均属于该 cluster。在递归分割
过程中,未进入某个 kernel的数据点则进入单点集(the sin-
gleton set)R ,然后 通过 singtons 向 kernels 的归 队及 kernels
的合并处理等循环过程来最终获得数据集的聚类。C L IC K
算法的优点是速度快,聚类正确度较高。
复杂网络聚类法¨4 用于发现网络簇结构 ,在社会网、生
物网和万维 网中有着广泛 的应用。例如 K leinherg 提 出的
H IT S 算法 ,利用 w w w 中 authority 和 hub 两 种基本 页面 的
弓I用关系发现 由 authority-hub 构成 的网络簇 结构 ,算 法被 广
泛应 用于多个搜 索引 擎 中¨4 。网络簇结 构是 复杂 网络 最普
遍和最重要的拓扑结构属性之一,具有同簇节点相互连接密
集、异簇节点相互连接稀疏的特点。复杂网络聚类 的具体算
法已有很多,如基于优化的网络聚类算法 K ernighaw L in 算
法、快速 N ew m an 算法和 G uim era—A m aral算法以及基于启发
式的网络聚类算法如 M FC 算法和 H IT S 算法。对于已知簇
结构的随机网络模型,基于优化的聚类算法比启发式算法有
更好 的聚类精度 。
仿生法[3。]如人工鱼群聚类算法、蚁群聚类方法等是一种
基于动物或生物行为的群体智能优化聚类算法。这些算法把
人工鱼群、蚁群等经典优化算法和传统聚类算法相结合,以克
服 目前聚类分析算法中普遍存在的对初始参数敏感、难以找
到最优聚类以及聚类有效性等问题。仿生聚类法具有 良好 的
克服局部极值和获得全局极值的能力。
核 聚类法 _4 利用 M ercer核 把输 入空 间的样本 映射 到高
维特征空间后,在特征空间中进行聚类。由于经过了核函数
的映射 ,使原来没有显现的特征突现出来 ,从而能够更好地聚
类。核聚类方法在性能上比经典的聚类算法有较大的改进 ,
具有更快的收敛速度以及更为准确的聚类。仿真实验的结果
证实 了核 聚类 方法 的可行 性 和有效性 E4g]。该 算 法从 某种 意
义上来说 ,和谱分析法有异曲同工之妙 ,目的都是放大特征 的
显现,使同一个 cluster 的数据点联系更加紧密,而不同 clus—
ter之间更分散 ,使之更容易聚类。要达到这个 目的,关键是
如何构造关于距离的映射函数。
2.2 距离的确定
数据点间亲密度或距离如何定义直接影响着聚类结果能
否正确获得。对于很多数据集,用欧氏距离作为定义数据点间亲密度 的基 础 ,即可 获得 较好 的 聚类 结果 。可 以说 欧 氏距
离是聚类分 析中最为常见 的数据 点间距离 定义方 法 (或数 据
点间亲密度定义的基础)。另外常见的“距离函数”定义还有
以下几种(设数据点维数为 m ) :皮尔森相关距离 (1 ~ )/2
(其中 为X 与X 的相关系数 ,该距离广泛应用于基因分
析)、M inkow ski距 离 (∑ l 一 * J音) 、M ahalanobis 距离
一 l
( 一 ,) M ( 一 )(其中M 为协方差矩阵)和余弦距离
(co 一(xTx,)/( 1l ll ll ,l1),广泛应用于文本聚类)等。
距离函数的定义要具体问题具体分析,不一定要满足度
量公理 ,如可以是广义距离 ,也可以是某些距离的组合。距离
函数定义得是否合适,直接影响着最终的聚类结果是否正确。
测地距离和角距离在聚类分析 中也应 用得很多 ,例 如在 M esh
Segm entation[9l的研究 中 ,网 格 间的距 离 就定 义 为两 者 间测
地距离与法向角距离的一个线性组合。也有学者认为用距离
函数作为定义亲密度的基础是值得改进的,距离小只是表明
数据点间各个分量间有较近的值 ,而两物体(数据点)只有展
示出相关联的内在结构才能表明它们相似,数据点间的距离
远并不能表示它们不相似 ,例如基因数据。因此提出了基于
改进了亲密度定义(或距离)的 P cluster 模型_2 。还有学者
提 出基于 概念 相似[2 ](concept sim ilarity)和 ISO M A P based
m etrics[。()]的亲密度定义方法。我们在多边形与网格物体有
意义 的剖分研 究 中Eli,对 多边形 顶点 之 问或 M esh 的网格 之
间如何定义距离 (或亲 密度)作 了深入 的思考 ,主要 采用 了测
地距离 、顶点 (或 网格 )间的可见性来解决 这个 问题 。
当数据是高维时,为了距离函数定义的方便或分类结果
的图形可视化 ,往往采用降维的方法[9 ‘。 弛]。降维法通常采
用 PC A (P rincipal C om ponent A nalysis)方法 、M D S (M ulti D i—
m ensional Scale)法、ISO M AP 法、谱分析方法、SM (Sam m on
M apping)方法和投影寻 踪 (Projection P ursuit)法 。其它 还有
W avelet transform 法E ]、Singular value decom position 法㈨
和 nonnegative m atrix factorization 方法[3 。用这些 降维法
可以找出高维数据集其真正的内在结构维数,达到降维 目的。
P C A 和 M D S 方法简单易于实现 ,但只能发现线性或拟线性
子空问的真正内在结构 ,而 IS()M A P 却能发现 PC A 或 M I)S
不能发现的数据集中的非线性结构l3 。ISO M A P 的主要思
想是通过计算流形上点间的测地距离,结合 啪DS 法,实现寻
找非线性结构以及降维。PCA 法、ISO M A P 法和谱分析法均
从特征值、特征向量着手,来完成数据集从 维到 q 维的嵌
入。例如 PC A 的本质是把原来 rt维空间的一组坐标系换成
另一组 /-/维 正交坐标 系 ,使得在这 组新的坐标 系下 ,在“主要
坐标轴”方向(对应于“最大”的几个特征向量方向)数据集的
几何属性和结构有较强体现,并舍弃部分相对不重要的坐标
轴方向(对应于特征向量“较小”的)来达到尽量不丢失原来数
据几何信息而又降维的目的。Sam m on M apping 降维法把
维数据点降到 q 维数据点时采用的思想是保持数据集中数据
点间的距离在两个不同维数空间中(近似)不变。投影寻踪试
图找 到数 据集 有令人感兴趣 的分 布的投影 方向 ,在这些 投影
方向能展示出数据集的某些内在结构。该方法认为在数据集
具有高斯分布的那些投影方向投影是最缺乏结构的,而非高
斯分布所对应的投影方向能展示数据集结构[3 。
2.3 类数 目的确定

个数据集的数据点可以分为多少个类 (子结构),一直
是聚类分析 的一 个研究 热点 ,至 目前为止 ,还没有一个很好 的
办法可以保证获得准确的类数 目,这是聚类分析中一个较为
关键和困难的问题l2 。通常确定类数 目的方法是:先提出衡
量数据集分类结果好坏的评估指标 V IS(V alidity indices),指
标可能只有一个也可能有多个【2 ,然后对于类数目r 从最小
值 r (通常可设为 2)开始,到用户设定的最大类数目 rma 结
束进行循环,对这个过程中的每个给定的类数 目r,执行 k 次
聚类算法。运行 k 次是 因为聚类算法多含有参数 ,对参数取
不同的参数值可获得不同聚类结果。然后以类数 目r 为横坐
标 ,以对应于类数 目r 的不同参数值聚类结果中计算得到的
V IS 最优值作为纵坐标,把对应于从 到 r吣 的这些点依次
相连得到一个 plot图(折线或曲线),若此曲线关于类数 目r
并非单调曲线,则选择曲线 V IS 值最大值(或最小值)所对应
的 r 值作为“正确”的类数 Et。若曲线单调 ,则选择曲线上局
部地区V IS 值有意义的突变点(称之为 knee 或 elbow )处所
对应的类数 目作为“正确”的类数 目。对于这种“knee”现象
(以 knee 作为选择类 数 目的根 据 ),T ibshirani[ 4_作 出了理论
上的解释 ,并 由此提出了用 gap statistic(即 r 个类 的“类 内距
离的平均值”之和的对数函数的负离差)的优化来估计正确的
类数目这一方法。另外一种情形是算法的参数集中并没有类
数目r 这一参数 ,此时选择在参数集变化范围内始终保持类
数目值不变的最大子参数范围对应的类数目作为正确的类数
目。在类数 目的确定过程中,有时往往需要计算多个不同定
义的V IS值来综合考虑分析,以得出较合理的类数目。
在基于谱分析的聚类方法 中,一些学者提出了用矩阵的
扰动理论来 自动获得类数 目的方法¨3 。指出当数据集 中的
cluster 内部有较好的致密性而 cluster 之间有较好的分离性
时 (从 定义的亲密度 的角 度来看 ),数 据集 的类 数 目等于亲 密
度矩 阵大 于 1 的特 征值 的个数 。
在基于模型的聚类算法中,类数 目的确定是通过“模型选
择”来进行的。模型选择是在数据拟合精度与模型复杂性之
间的折 中,符合 O ccam 剃刀 原理 :简单 模型 只在“有 限范 围”
内做预测 ,而复杂模型能在更宽范围内做预测,但在“有限范
围”内,复杂模型预测不如简单模型强。因此可结合两者的优
点,通过简单模型的复合叠加得到相对复杂模型。通过选择
不同的模型(包括类数 G 这个因素),对数据集进行分类 ,对
不同模型的分类结果计算其 A IC 或 BIC 值_2 。然后以类数
目为横轴,以不同模型的 A IC 值(或 B IC 值)作为纵轴 ,给出
不同模 型的 plot图 ,选择 A IC 值或 B IC 值最优 的那个模 型及
所对应的类数 目作 为数据集 的“正确 ”类数 。因此 ,目前类 数
主要是通过 V IS 的最大(小)值或 knee 点、A IC 值和B IC 值的
最大值、亲密度矩阵的特征值等来确定。多边形及网格剖分
研究中的 PP O S 系统_1]主要采用亲密度矩阵的特征值变换趋
势来实现类数 目的自动确定。
2.4 算法评估
算法评估_ _2 讨论如何对聚类算法的优劣性作一个评
价。由于聚类结果遵循的一个原则是“类内相似度尽可能大,
而类间相似度尽量小 ”,因此很多对 聚类算法 的评估 方法都 是
基于这一原则的。通常通过计算 V IS (V alidity Indices)量化值来衡量分类结果符合上述原则的程度,从而对算法作出优
劣性的评估。V IS 可以分为 3 类 :外部准则(external erite—
ria)、内部准则 (internal criteria) 和相对准则 (relative crite—
ria)。外部准则是把算法分类结果和(外部已知的)标准答案
相比较 ,从而得出算法分类结果的正确性如何。该方法通常
把 V IS 看成统计量 ,用 M onde C arlo 方法模拟出该统计量的
分布曲线,然后用假设检验法对统计量的结果值(观测值)与
显著性水平对应的临界值比大小,以确定现有分类结果和标
准答案是否相似或一致。常见的外部准则 V IS 有:R and 统计
量 、H uberts garna 统计量 、标准 H uberts gam a 统计量 、Jaccard
系数和F M 指标。内部准则以V IS 对数据集内部量之间的比
较来评判算法分类结果的好坏,例如用类信息矩阵 c ,元素
C u 一1 表数据点 x 与x 属同一类,而C o —O 表不同类。则c
阵表示算法分类结果,若矩阵 P 是原始数据集 的亲密度矩
阵,则可定义合适的 V/S 来衡量矩阵 P 和c 的相似度,从而
对分类结果作出优劣判断。常见的内部准则 VIS 有:CPCC 、
H uberts gam a 统计量和其标准化。和外部准则一样,内部准
则也常用假设检验法判断。而相对准则则对算法关于参数集
在某个范围内进行循环执行,分为参数集中包含类数 目参数
和不包含类数目参数两种情况讨论,利用前面的“knee”等方
法确定类数 目,从而获得对应 的一个分类结果 ,该结果被认为
是参数集取不同值时相对最好的,然后用合适的 V IS 对结果
评估。该法由于不需用假设检验 ,和上述两种方法相比,计算
量要小很多。常见的 V IS 包括l2 :D unn and D unn-like 指
标,R M SSD T 、SP R 、R S、C D 的组 合,PC (P artition Coeffi—
d ent),PE (P artition E ntropy Coefficent),X ie-B eni index 等
等 这 3 类准则 中 ,外 部准 则最 为客 观 ,相 对准 则计 算 量最
小,因此就我们的观点而言,外部准则优于相对准则,而相对
准则要优于内部准则。在关于多边形有意义的剖分Ⅲ】 的研究
中,对我们剖分算法的评估采用了外部准则,标准答案是 8O
多个多边形的人工剖分标准数据集l3 ,采用统计学中的标准
误差(standard error)来评估算法剖分结果和人工剖分结果的
吻合程度 ,以评估算法及剖分结果的优劣。

原创粉丝点击