【机器学习－西瓜书】九、聚类：性能度量；距离计算

来源：互联网发布：淘宝怎么交保证金编辑：程序博客网时间：2024/05/22 13:12

关键词：性能度量；距离计算；VDM

9.1聚类任务

聚类任务是无监督学习任务，我们只需要有样本，而不需要有标签。聚类试图将数据集中的样本划分为若干个子集，每个子集称为一个簇（cluster）。簇其实就是类，一簇就是一类。而没有标签，聚类算法把样本划分到不同的簇，算法是没办法告诉我们这些簇具体代表什么意思。所以，聚类算法仅能形成簇的结构，簇所对应的概念语义需要人为的把握和命名。
由于没有类别标签，聚类算法涉及的两个最基本问题：性能度量和距离计算

9.2性能度量

由于没有类别标签，我们如何评价一个聚类算法的优劣呢？直观上看，我们希望“物以类聚”，即同一簇的样本尽可能彼此相似，不同簇的样本尽可能不同。也就是簇内相似度（intra-cluster similarity）高，簇间相似度（inter-cluster similarity）低。

聚类性能度量可分两类：第一，有参考模型可比较的，称之为外部指标（external index）；第二，直接考察聚类结果，称之为内部指标（internal index），例如 K-means算法。

针对有参考模型的性能度量，通常有以下指标：JC系数（Jaccard Coefficient）;FM指数（Fowlkes and Mallows Index,FMI）;Rand指数（Rand Index，RI）
针对考察内部结果，有DB指数（Davies-Bouldin Index, DBI）;Dunn指数（Dunn Index，DI）

9.3 距离计算

聚类聚类，就是把距离近的归为一类。如何衡量两个样本之间的距离呢？常用的距离函数有：欧氏距离；曼哈顿距离（街区距离）；切比雪夫距离等等。而欧氏距离和曼哈顿距离可以用一个通式表示，即闵可夫斯基距离（Minkowski distance） :
这里写图片描述

当p=1时，
这里写图片描述，
就是曼哈顿距离
当p=2时
，，
就是欧式距离

当属性是有序的关系时，采用闵可夫斯基计算距离是没问题的，然而当属性是无序属性，例如｛飞机，火车，轮船｝，很显然地，我们不能直接在属性值上采用闵可夫斯基距离。对于无序属性可采用VDM（Value Difference Metric，Stanfill and Waltz，1986）（p200，如果用到，翻书）

阅读全文

0 0