【机器学习-西瓜书】九、聚类:性能度量;距离计算

来源:互联网 发布:淘宝怎么交保证金 编辑:程序博客网 时间:2024/05/22 13:12

关键词:性能度量;距离计算;VDM

9.1聚类任务

聚类任务是无监督学习任务,我们只需要有样本,而不需要有标签。聚类试图将数据集中的样本划分为若干个子集,每个子集称为一个簇(cluster)。簇其实就是类,一簇就是一类。而没有标签,聚类算法把样本划分到不同的簇,算法是没办法告诉我们这些簇具体代表什么意思。所以,聚类算法仅能形成簇的结构,簇所对应的概念语义需要人为的把握和命名。
由于没有类别标签,聚类算法涉及的两个最基本问题:性能度量 距离计算

9.2性能度量

由于没有类别标签,我们如何评价一个聚类算法的优劣呢?直观上看,我们希望“物以类聚”,即同一簇的样本尽可能彼此相似,不同簇的样本尽可能不同。也就是簇内相似度(intra-cluster similarity)高,簇间相似度 (inter-cluster similarity)低

聚类性能度量可分两类:第一,有参考模型可比较的,称之为外部指标(external index);第二,直接考察聚类结果,称之为内部指标(internal index),例如 K-means算法。

针对有参考模型的性能度量,通常有以下指标:JC系数(Jaccard Coefficient);FM指数(Fowlkes and Mallows Index,FMI);Rand指数(Rand Index,RI)
针对考察内部结果,有DB指数(Davies-Bouldin Index, DBI);Dunn指数(Dunn Index,DI)

9.3 距离计算

聚类聚类,就是把距离近的归为一类。如何衡量两个样本之间的距离呢?常用的距离函数有:欧氏距离;曼哈顿距离(街区距离);切比雪夫距离等等。而欧氏距离和曼哈顿距离可以用一个通式表示,即闵可夫斯基距离(Minkowski distance) :
这里写图片描述

当p=1时,
这里写图片描述
就是曼哈顿距离
当p=2时
这里写图片描述
就是欧式距离

当属性是 有序的关系时,采用闵可夫斯基计算距离是没问题的,然而当属性是无序属性,例如{飞机,火车,轮船},很显然地,我们不能直接在属性值上采用闵可夫斯基距离。对于无序属性可采用VDM(Value Difference Metric,Stanfill and Waltz,1986)(p200,如果用到,翻书)