聚类方法综述

来源：互联网发布：移动网络ip地址是什么编辑：程序博客网时间：2024/05/29 16:59

引言
由聚类所生成的簇是一组数据对象的集合，这些在同一
个簇中的对象彼此相似，而与其他簇中的对象相异。聚类分
析最大程度地实现类中对象相似度最大、类间对象相似度最
小。
聚类算法大体可以划分为以下几类l2 “ ：(1)基于划分
的方法 (partitioning m ethod)[ 。 ” ；(2)基于层次的
方法 (hierarchical m ethod)C“ ；(3)基于密度的方法 (den—
sity-based m ethod)[ ” ；(4 )基于网格的方法 (grid—based
m ethod )[ ；( 5 ) 基于模型的方法 ( m odel—based m eth—
od)c” ；(6)模糊聚类方法 (fuzzy m ethod )[捌；(7 )基于图
论的方法；(8)基于分形的方法；(9)复杂网络聚类方
法；(10)仿生法。s]；(11)核聚类方法[ 。不少聚类算法是
这些方法的综合。
聚类算法在工程(如机器学习、人工智能、机械工程、电子
工程)、计算机科学、生医学、地球科学(如遥感)、社会科学(如
心理学)、经济学等领域都有广泛的应用。聚类算法和模式识
别、模式分类密切相关，是模式识别和模式分类的基础。聚类
算法可直接应用于二维多边形剖分_1．36]、三维网格有意义剖
分。和图像分割 ]中，为二维多边形物体、三维网格物体和
图像的识别打下了基础。
直接导致数据集聚类结果好坏的因素有 3 个[2 。：类
数目的正确获得、决定数据点之间亲密度的距离函数和高效
优良的聚类算法。因此评价聚类算法的优劣也成为目前聚类
研究的热点之一。关于聚类方面的研究，主要集中在类数目
的确定、数据点间亲密度(距离函数 )的定义、开发优良的聚类
算法和对聚类算法及聚类结果好坏的评估这 4 点上。本文结
合我们在多边形和网格有意义剖分的工作 ]，对聚类算法、距
离函数、类数目的确定和算法评估这 4 个内容进行了系统的
论述。
2 聚类算法概述
2．1 聚类算法
2．1．1 基于划分的方法
主要有 K -M eans_2_4]、K —m odes[“] 、PA M (Partitioning A —
ro un d M ed oid s )L 、C L A R A ( C lu stering L arg e A pp lica—
tion s )[ 、A P ( A ffinity P ro pag atio n C lu sterin g )[7u、S P E A
(Spectral A nalysis)[g’=39]等聚类算法。
最经典的聚类算法是 K-M eans，它由 M acQ ueen 于 1967
年提出。其主要思想是找出数据集的是个类中心 (质心 )，把
数据集划分为五个类，使得数据集中的数据点与所属类的类
中心的距离平方和最小。该算法对初值敏感，需人工指定类
数 k，优点是算法简单易于实现。K—m odes_1 是 K—M eans算
法的一个延伸，主要是可处理分类属性数据 (categorical da—
ta)，而不像 K —M eans 那样只能处理数值属性的数据(num eri—
cal data)。K —M eans 和 K -m odes都不能处理孤立点 (outliers)
情形。PA M (Partitioning A round M edoids)口o]以数据集中的
实际数据点为 M edoids 进行聚类，而不像 k-m eans 中以质心
(未必恰好是数据集中的数据点)为类中心。PA M 可处理孤
立点等奇异情形，但该算法计算量非常大。
C L A R A [” 和 P A M 方法相似，主要是为了减少 P A M 中的计算量。该算法先从数据集中提取一部分数据点作为样
本，然后对样本采用 PA M 算法聚类，利用这样的一个思想可
大大减少计算量。
亲密度传播聚类(A ffinity P ropagation clustering ，A P )I7
是 Frey 等人 2007 年提出的一种聚类算法，该算法快速、有
效。A P 算法经过人脸图像聚类、文本中关键句子选择、基因
片段聚类以及航空路线规划等试验中的测试，证明其不仅聚
类结果更好，而且对于大规模数据集而言，花费时间只有其它
聚类方法的百分之一[ 。对于小规模的数据集，该算法聚类
结果的正确性与效率与其它方法相当或略优，偶尔甚至不
及_8]。A P 算法初始时将所有的数据点都视为潜在的聚类中
心，将两个点之间的欧氏距离的负值设想为吸引度或归属度，
则点 k 对较近的点i 的吸引力比较大，同样点 i认同点k 为其
聚类中心的归属感也较强。这样，数据点是对其他数据点的
吸引力之和越大，成为聚类中心的可能性也越大，反之可能性
就越小。以此原理出发，A P 算法为选出合适的类代表 (类中
心)而不断从数据点集中搜集和传递有关的消息(M essage) ：
为候选的类中心点 k从数据集中每个数据点 i搜集消息R ( ，
)(称为点 k 对点 i 的 responsibility 或吸引度)来描述数据点
k 作为数据点 i 的类中心的适合程度；同时收集消息 A (i，忌)
(fg 为点 i对点 k 的 availability 或归属度 )来描述数据点 i选
择数据点 k 作为其类中心的适合程度。R (i，k)与 A (i，k)越
大，点k 作为最终聚类中心的可能性就越大。A P 算法通过迭
代，循环不断地进行消息的搜集和传递，以产生 m 个高质量
的类中心和对应的聚类，同时聚类的目标函数也得到了最优
化，数据集中各个数据点也最终归队于各个以类中心为代表
的所属的类。A P 算法并不明确要求指定类数目。但我们在
研究该算法并实际应用时发现，有时对亲密度矩阵的一个微
小扰动就会影响其聚类结果，并且有时会出现两个数据点互
为类中心的情况。
A P 算法与 K —m eans 算法等同属于 K 中心聚类方法。经
典的 K —m eans 算法的优点是简单、快速而且能有效处理大规
模数据集，然而算法对初始聚类中心的选择敏感且容易陷入
局部极值，因此需要在不同初始化下运行很多次，以寻找一个
相对较好的聚类结果。但这种策略也只有在非海量数据和较
小的类数及某次初始化靠近好的结果时才有效。另外，它要
求用户必须事先给出聚类个数 k。A P 算法部分地克服了这
些缺点，其迭代过程不断搜索合适的聚类中心，同时使得聚类
的目标函数 E (c )最优化。若各个类的结构比较紧密，算法则
容易保证各个类的亲密度和均比较大，从而能给出比较正确
的聚类结果；但对于比较松散的聚类结构，算法倾向于产生较
多的类来实现 E (C )最大化，这使得算法产生的聚类类数过
多，而不能给出准确的聚类结果。这种不足在很大程度上会
限制其应用范围。
谱分析方法(Spectral Analysis)9I39利用特征值和特征
向量的方法对数据集中的数据点进行聚类，取得了较好的结
果，在聚类和模式分类、模式识别、网格剖分(M esh Segm enta—
tion)中得到了广泛的应用。和 A P 方法一样，它同样是对数
据点集的亲密度矩阵 s 进行分析，但聚类时不是直接采用 s
矩阵，而是先计算它的 k 个最大的特征值和特征向量，并利用
它们构建一个对称矩阵 Q ，进而对Q 进行亲密度分析，得到数
据集的最终聚类。谱分析方法并不是直接对亲密度矩阵进行
分析而得出分类结果，由于它要先计算特征向量，因此计算量
较大，并且也同样需要由用户事先给出聚类个数 k。谱分析
方法得到的包含数据点亲密度信息的矩阵 Q 与原始亲密度
矩阵S 相比，亲密度信息 Q 只是 s 的一个近似，近似的程度和
值 k 相关，k 取得越大，Q 和 S 的误差越小。k 是用户指定的
数据点集最终分类结果的类数，是算法的一个参数。Q 和s
相比的优势在于，对 Q 进行亲密度分析实现分类要比对 S 直
接进行分析实现分类要容易得多，这在极化理论中得到了证
明。我们利用谱分析方法研究了多边形与网格有意义的剖
分，并在此基础上开发了一个原型系统[1]，取得了良好的剖分
结果。
2．1．2 基于模型的方法
基于模型的方法_1 9]主要可以分为两类：一类是利用
混合概率密度分布模型(M ixture M odels)来聚类¨2 ，另一
类是利用统计物理学中的非均匀铁磁模型 (inhom ogeneous
ferrom agnetic m ode1)的顺磁阶段来聚类l1 。
混合概率密度分布模型聚类法用混合概率密度函数来拟
合数据集，令混合概率密度函数：
一
∑ rkf k( f )
一 J
其中， ≥O ，∑ —l，^ 和分别是混合模型中第个组成
部分的密度函数和参数，“是数据集中数据点Y 属于第 k 个
组成部分(第 k 个 cluster)的概率。设 Y ， z，⋯，Y 是需分类
的数据集，令鼍一( ，z )，i一1，n ，称之为完全数据(com plete
data)，其中 z 一 (Zi】， 2 ，⋯ ，ZiG ) 是未知部分，一
{1’若类，是一1，2，⋯，G。则对应于“完全数据，置 l
0，否则～ ⋯ ⋯ ⋯ ⋯’ ‘
的对数似然函数，利用著名的 E M 算法[2 8l可迭代计算出，
Z-k 及0 等未知参数的近似值，从而由z 的值获得数据集 Y ，
Yz，⋯ ，Y 的一个分类。混合模型的组成部分密度函数可根
据需要选择，较为常用的有 P oisson 分布、高斯分布、t 分布
等。成份数 G (即数据集的类数)通常可用模型选择的方法来
进行选择，通过计算不同模型所得到的A IC 值(A kaike Infor—
m ar ion C riteria)和 B IC 值 (Bayesian Inform ation C riterion )
加以筛选。若组成成份采用高斯分布，则其参数中的均值
(为第是类的类中心)、协方差矩阵O”k(揭示了第 k 类的形状和
方位)均可由 E M 算法计算。该算法由于采用了 EM 算法，因
此聚类结果对初值敏感。
顺磁聚类法 _1o]利用统计物理学方法对聚类作了研究，主
要利用了非均匀铁磁模型 (inhom ogeneous ferrom agnetic
m ode1)的物理性质。对每一个数据点赋以一个自旋方向，规
定只有最相邻的数据点之间才会对彼此的自旋方向相互影
响。最近邻间的相互影响用自旋关联(spin-spin correlations)
函数值来表示，这个模型可用著名的伊辛模型(Ising m ode1)
或 Potts 模型描述。自旋关联值通常用蒙特卡洛方法模拟获
得。当铁磁温度由绝对零度逐步升高到达居里温度时，数据
集 (铁磁模型) 由铁磁性阶段 (ferrom agnetic phase)过渡到顺
磁性阶段，这时铁原子(数据点)的自旋方向由完全有序一致
变成不同区域局部一致状态，数据集的 clusters 就显现。算
法利用各个数据点处的自旋关联值，在顺磁性阶段(温度 T
在某个范围时)确定所有的 cluster。算法的关键点是确定顺
磁状态临界温度以及用蒙特卡洛方法模拟计算自旋关联值。算法的特色是把数据点间的距离函数转化为自旋关联值，从
而可处理在密度低的区域两个相邻点虽然距离很小但属于不
同类而在高密区域同样距离却属于同类的情形。另外算法稳
定，对初值不敏感。
2．1．3 基于分形的方法
基于分形的方法如 FC (F ractal C lustering)[40,43]等主要
从分形维数着手来完成聚类。FC 算法的基本思想是认为在
同一个 cluster 内部的任何一个数据点的改变都不太可能引
起该 cluster原有分形维数的本质变化。F C 首先采用网格的
聚类算法对数据集的一个样本集进行初始聚类，初始得到的
每一个 cluster要保证有足够多的数据点，以能够计算该 clus—
ter 的分形维数。然后对数据集中未归类的每一个数据点 P ，
计算其插入每一 cluster 后引起的该 cluster 分形维数的变化
值(绝对值)，若所有 cluster变化值的最小值大于某一设定的
阈值，则认为此数据点为噪声，去除。否则把户点归类于引
起 cluster分形维数变化最小的那个类。该算法能处理噪声，
可处理任意形状的 cluster，能处理高维数据集。
2．1．4 模糊聚类法
在实际应用中，数据集中的数据点有时并不仅仅只是属
于某一类的，而是同时属于多个类。为处理这个问题，模糊聚
类法[26,44,45]如 FCM 算法、FBSA 算法、G ustafson-K essel算
法、G ath-G eva 算法等就应运而生。其中最有代表性的当属
FC M (Fuzzy C-m eans)算法_2 。F C M 的基本思想是使得目
标函数 J (u ，’，)一∑ ∑ ll坼一取得最小值，其中u
一( ) 为模糊剖分矩阵，表示数据点属于类 i 的程
度，满足 ∑Uk／一1 且 ≥0。m 是参数，称之为模糊指数
i— l
(fuzzifier)。用迭代法计算模糊剖分矩阵u 和类中心 V 一{ 1
一
1 ，C}，并由此获得类中心和分类结果。K -m eans 算法、
Fuzzy C -m eans(FC M )算法、G ustafson-K essel 算法和 G ath-
G eva算法最优化的目标函数中只是距离 Il瓢一v 的定义
不同，却导致了它们处理不同 cluster 形状的能力有强弱。
G ath-G eva 算法和G ustafson K esse[算法比Fuzzy C -m eans算
法、k-m eans算法能处理的 cluster形状更加丰富。
2．1．5 其它聚类算法
比较有代表性的主要有：基于层次的 C U R ”]、
R O C K [ 和 BIR C H ；；基于密度的 FD BA ~5 3 、bD BSC A N ~ 、
D BSC A N c 和 ST -D BSC A N E ；基于网格的 ST IN G c ；基于
图论的 C L IC K [“ ；复杂网络聚类法[ ；仿生法[。 ]以及核聚
类方法E 。以下对每一类型选其一代表性算法作简要阐述。
C U R E (C lustering U sing R epresentatives)是个层次聚类
算法。其主要思想是在层次聚类的两个类合并过程中，在合
并的 cluster 里适当选取分布较散的一些样本点 (selecting
w elt scattered points)，然后样本点按照设定的收缩率 a ∈[O ，
1]向该 cluster中心收缩后获得该 cluster的代表点集(repre—
sentatives)，算法在下一层次时考虑某两个 cluster 是否合并
就以它们两者的这些代表点集是否距离最近作为依据。该算
法能很好地处理孤立点问题，并且能处理各种形状的 cluster，
克服了一些聚类算法只能处理圆形或球形的 cluster这个问
题。基于密度的 D K qC A N (D ensity B ased C lustering A lgo—
rithm )算法的主要思想是一个 cluster 中的每一个点在给定
·
29O ·
半径的邻域内必须至少含有某个给定数目的点，因此它能处
理孤立点，并且只需一个参数值。该算法理论上能处理除两
个 cluster 之间有致密点集相连 (哑铃状)的任意形状的 clus—
ter。基于网格的 ST IN G (Statistical Inform ation G rid)用层次
结构的方式把数据空间划分为很多个矩形单元 (或网格 )，然
后计算网格里数据点的统计值(包括均值、标准差、最大小值、
分布类型等)，并利用这些信息进行聚类。该方法利用层次结
构的矩形单元存储法(下层的单元是上层单元的子单元)，能
较快地进行信息查询从而减少算法的计算量。基于图论的
C L ICK (C luster Identification via C onnectivity K ernels)递归
地对图进行最小权重分割(m inim um w eight cut)来产生 clus—
ters，并假设 cluster 内部和 clusters 之间的相似度服从不同均
值和方差的高斯分布，均值与方差这些参数值通过最大似然
估计方法或 E M 算法计算获得。算法主要过程如下：对一个
图，首先用递归最小权重分割法得到各个 cluster 的内核(ker—
ned ，内核中的每一个数据点均属于该 cluster。在递归分割
过程中，未进入某个 kernel的数据点则进入单点集(the sin-
gleton set)R ，然后通过 singtons 向 kernels 的归队及 kernels
的合并处理等循环过程来最终获得数据集的聚类。C L IC K
算法的优点是速度快，聚类正确度较高。
复杂网络聚类法¨4 用于发现网络簇结构，在社会网、生
物网和万维网中有着广泛的应用。例如 K leinherg 提出的
H IT S 算法，利用 w w w 中 authority 和 hub 两种基本页面的
弓I用关系发现由 authority-hub 构成的网络簇结构，算法被广
泛应用于多个搜索引擎中¨4 。网络簇结构是复杂网络最普
遍和最重要的拓扑结构属性之一，具有同簇节点相互连接密
集、异簇节点相互连接稀疏的特点。复杂网络聚类的具体算
法已有很多，如基于优化的网络聚类算法 K ernighaw L in 算
法、快速 N ew m an 算法和 G uim era—A m aral算法以及基于启发
式的网络聚类算法如 M FC 算法和 H IT S 算法。对于已知簇
结构的随机网络模型，基于优化的聚类算法比启发式算法有
更好的聚类精度。
仿生法[3。]如人工鱼群聚类算法、蚁群聚类方法等是一种
基于动物或生物行为的群体智能优化聚类算法。这些算法把
人工鱼群、蚁群等经典优化算法和传统聚类算法相结合，以克
服目前聚类分析算法中普遍存在的对初始参数敏感、难以找
到最优聚类以及聚类有效性等问题。仿生聚类法具有良好的
克服局部极值和获得全局极值的能力。
核聚类法 _4 利用 M ercer核把输入空间的样本映射到高
维特征空间后，在特征空间中进行聚类。由于经过了核函数
的映射，使原来没有显现的特征突现出来，从而能够更好地聚
类。核聚类方法在性能上比经典的聚类算法有较大的改进，
具有更快的收敛速度以及更为准确的聚类。仿真实验的结果
证实了核聚类方法的可行性和有效性 E4g]。该算法从某种意
义上来说，和谱分析法有异曲同工之妙，目的都是放大特征的
显现，使同一个 cluster 的数据点联系更加紧密，而不同 clus—
ter之间更分散，使之更容易聚类。要达到这个目的，关键是
如何构造关于距离的映射函数。
2．2 距离的确定
数据点间亲密度或距离如何定义直接影响着聚类结果能
否正确获得。对于很多数据集，用欧氏距离作为定义数据点间亲密度的基础，即可获得较好的聚类结果。可以说欧氏距
离是聚类分析中最为常见的数据点间距离定义方法 (或数据
点间亲密度定义的基础)。另外常见的“距离函数”定义还有
以下几种(设数据点维数为 m ) ：皮尔森相关距离 (1 ～ )／2
(其中为X 与X 的相关系数，该距离广泛应用于基因分
析)、M inkow ski距离 (∑ l 一 * J音) 、M ahalanobis 距离
一 l
( 一，) M ( 一 )(其中M 为协方差矩阵)和余弦距离
(co 一(xTx，)／( 1l ll ll ，l1)，广泛应用于文本聚类)等。
距离函数的定义要具体问题具体分析，不一定要满足度
量公理，如可以是广义距离，也可以是某些距离的组合。距离
函数定义得是否合适，直接影响着最终的聚类结果是否正确。
测地距离和角距离在聚类分析中也应用得很多，例如在 M esh
Segm entation[9l的研究中，网格间的距离就定义为两者间测
地距离与法向角距离的一个线性组合。也有学者认为用距离
函数作为定义亲密度的基础是值得改进的，距离小只是表明
数据点间各个分量间有较近的值，而两物体(数据点)只有展
示出相关联的内在结构才能表明它们相似，数据点间的距离
远并不能表示它们不相似，例如基因数据。因此提出了基于
改进了亲密度定义(或距离)的 P cluster 模型_2 。还有学者
提出基于概念相似[2 ](concept sim ilarity)和 ISO M A P based
m etrics[。()]的亲密度定义方法。我们在多边形与网格物体有
意义的剖分研究中Eli，对多边形顶点之问或 M esh 的网格之
间如何定义距离 (或亲密度)作了深入的思考，主要采用了测
地距离、顶点 (或网格 )间的可见性来解决这个问题。
当数据是高维时，为了距离函数定义的方便或分类结果
的图形可视化，往往采用降维的方法[9 ‘。弛]。降维法通常采
用 PC A (P rincipal C om ponent A nalysis)方法、M D S (M ulti D i—
m ensional Scale)法、ISO M AP 法、谱分析方法、SM (Sam m on
M apping)方法和投影寻踪 (Projection P ursuit)法。其它还有
W avelet transform 法E ]、Singular value decom position 法㈨
和 nonnegative m atrix factorization 方法[3 。用这些降维法
可以找出高维数据集其真正的内在结构维数，达到降维目的。
P C A 和 M D S 方法简单易于实现，但只能发现线性或拟线性
子空问的真正内在结构，而 IS()M A P 却能发现 PC A 或 M I)S
不能发现的数据集中的非线性结构l3 。ISO M A P 的主要思
想是通过计算流形上点间的测地距离，结合啪DS 法，实现寻
找非线性结构以及降维。PCA 法、ISO M A P 法和谱分析法均
从特征值、特征向量着手，来完成数据集从维到 q 维的嵌
入。例如 PC A 的本质是把原来 rt维空间的一组坐标系换成
另一组／-／维正交坐标系，使得在这组新的坐标系下，在“主要
坐标轴”方向(对应于“最大”的几个特征向量方向)数据集的
几何属性和结构有较强体现，并舍弃部分相对不重要的坐标
轴方向(对应于特征向量“较小”的)来达到尽量不丢失原来数
据几何信息而又降维的目的。Sam m on M apping 降维法把
维数据点降到 q 维数据点时采用的思想是保持数据集中数据
点间的距离在两个不同维数空间中(近似)不变。投影寻踪试
图找到数据集有令人感兴趣的分布的投影方向，在这些投影
方向能展示出数据集的某些内在结构。该方法认为在数据集
具有高斯分布的那些投影方向投影是最缺乏结构的，而非高
斯分布所对应的投影方向能展示数据集结构[3 。
2．3 类数目的确定
一
个数据集的数据点可以分为多少个类 (子结构)，一直
是聚类分析的一个研究热点，至目前为止，还没有一个很好的
办法可以保证获得准确的类数目，这是聚类分析中一个较为
关键和困难的问题l2 。通常确定类数目的方法是：先提出衡
量数据集分类结果好坏的评估指标 V IS(V alidity indices)，指
标可能只有一个也可能有多个【2 ，然后对于类数目r 从最小
值 r (通常可设为 2)开始，到用户设定的最大类数目 rma 结
束进行循环，对这个过程中的每个给定的类数目r，执行 k 次
聚类算法。运行 k 次是因为聚类算法多含有参数，对参数取
不同的参数值可获得不同聚类结果。然后以类数目r 为横坐
标，以对应于类数目r 的不同参数值聚类结果中计算得到的
V IS 最优值作为纵坐标，把对应于从到 r吣的这些点依次
相连得到一个 plot图(折线或曲线)，若此曲线关于类数目r
并非单调曲线，则选择曲线 V IS 值最大值(或最小值)所对应
的 r 值作为“正确”的类数 Et。若曲线单调，则选择曲线上局
部地区V IS 值有意义的突变点(称之为 knee 或 elbow )处所
对应的类数目作为“正确”的类数目。对于这种“knee”现象
(以 knee 作为选择类数目的根据 )，T ibshirani[ 4_作出了理论
上的解释，并由此提出了用 gap statistic(即 r 个类的“类内距
离的平均值”之和的对数函数的负离差)的优化来估计正确的
类数目这一方法。另外一种情形是算法的参数集中并没有类
数目r 这一参数，此时选择在参数集变化范围内始终保持类
数目值不变的最大子参数范围对应的类数目作为正确的类数
目。在类数目的确定过程中，有时往往需要计算多个不同定
义的V IS值来综合考虑分析，以得出较合理的类数目。
在基于谱分析的聚类方法中，一些学者提出了用矩阵的
扰动理论来自动获得类数目的方法¨3 。指出当数据集中的
cluster 内部有较好的致密性而 cluster 之间有较好的分离性
时 (从定义的亲密度的角度来看 )，数据集的类数目等于亲密
度矩阵大于 1 的特征值的个数。
在基于模型的聚类算法中，类数目的确定是通过“模型选
择”来进行的。模型选择是在数据拟合精度与模型复杂性之
间的折中，符合 O ccam 剃刀原理：简单模型只在“有限范围”
内做预测，而复杂模型能在更宽范围内做预测，但在“有限范
围”内，复杂模型预测不如简单模型强。因此可结合两者的优
点，通过简单模型的复合叠加得到相对复杂模型。通过选择
不同的模型(包括类数 G 这个因素)，对数据集进行分类，对
不同模型的分类结果计算其 A IC 或 BIC 值_2 。然后以类数
目为横轴，以不同模型的 A IC 值(或 B IC 值)作为纵轴，给出
不同模型的 plot图，选择 A IC 值或 B IC 值最优的那个模型及
所对应的类数目作为数据集的“正确 ”类数。因此，目前类数
主要是通过 V IS 的最大(小)值或 knee 点、A IC 值和B IC 值的
最大值、亲密度矩阵的特征值等来确定。多边形及网格剖分
研究中的 PP O S 系统_1]主要采用亲密度矩阵的特征值变换趋
势来实现类数目的自动确定。
2．4 算法评估
算法评估_ _2 讨论如何对聚类算法的优劣性作一个评
价。由于聚类结果遵循的一个原则是“类内相似度尽可能大，
而类间相似度尽量小 ”，因此很多对聚类算法的评估方法都是
基于这一原则的。通常通过计算 V IS (V alidity Indices)量化值来衡量分类结果符合上述原则的程度，从而对算法作出优
劣性的评估。V IS 可以分为 3 类：外部准则(external erite—
ria)、内部准则 (internal criteria) 和相对准则 (relative crite—
ria)。外部准则是把算法分类结果和(外部已知的)标准答案
相比较，从而得出算法分类结果的正确性如何。该方法通常
把 V IS 看成统计量，用 M onde C arlo 方法模拟出该统计量的
分布曲线，然后用假设检验法对统计量的结果值(观测值)与
显著性水平对应的临界值比大小，以确定现有分类结果和标
准答案是否相似或一致。常见的外部准则 V IS 有：R and 统计
量、H uberts garna 统计量、标准 H uberts gam a 统计量、Jaccard
系数和F M 指标。内部准则以V IS 对数据集内部量之间的比
较来评判算法分类结果的好坏，例如用类信息矩阵 c ，元素
C u 一1 表数据点 x 与x 属同一类，而C o —O 表不同类。则c
阵表示算法分类结果，若矩阵 P 是原始数据集的亲密度矩
阵，则可定义合适的 V／S 来衡量矩阵 P 和c 的相似度，从而
对分类结果作出优劣判断。常见的内部准则 VIS 有：CPCC 、
H uberts gam a 统计量和其标准化。和外部准则一样，内部准
则也常用假设检验法判断。而相对准则则对算法关于参数集
在某个范围内进行循环执行，分为参数集中包含类数目参数
和不包含类数目参数两种情况讨论，利用前面的“knee”等方
法确定类数目，从而获得对应的一个分类结果，该结果被认为
是参数集取不同值时相对最好的，然后用合适的 V IS 对结果
评估。该法由于不需用假设检验，和上述两种方法相比，计算
量要小很多。常见的 V IS 包括l2 ：D unn and D unn-like 指
标，R M SSD T 、SP R 、R S、C D 的组合，PC (P artition Coeffi—
d ent)，PE (P artition E ntropy Coefficent)，X ie-B eni index 等
等这 3 类准则中，外部准则最为客观，相对准则计算量最
小，因此就我们的观点而言，外部准则优于相对准则，而相对
准则要优于内部准则。在关于多边形有意义的剖分Ⅲ】的研究
中，对我们剖分算法的评估采用了外部准则，标准答案是 8O
多个多边形的人工剖分标准数据集l3 ，采用统计学中的标准
误差(standard error)来评估算法剖分结果和人工剖分结果的
吻合程度，以评估算法及剖分结果的优劣。

阅读全文

0 0