【机器学习-西瓜书】九、聚类:性能度量;距离计算
来源:互联网 发布:淘宝怎么交保证金 编辑:程序博客网 时间:2024/05/22 13:12
关键词:性能度量;距离计算;VDM
9.1聚类任务
聚类任务是无监督学习任务,我们只需要有样本,而不需要有标签。聚类试图将数据集中的样本划分为若干个子集,每个子集称为一个簇(cluster)。簇其实就是类,一簇就是一类。而没有标签,聚类算法把样本划分到不同的簇,算法是没办法告诉我们这些簇具体代表什么意思。所以,聚类算法仅能形成簇的结构,簇所对应的概念语义需要人为的把握和命名。
由于没有类别标签,聚类算法涉及的两个最基本问题:性能度量 和距离计算
9.2性能度量
由于没有类别标签,我们如何评价一个聚类算法的优劣呢?直观上看,我们希望“物以类聚”,即同一簇的样本尽可能彼此相似,不同簇的样本尽可能不同。也就是簇内相似度(intra-cluster similarity)高,簇间相似度 (inter-cluster similarity)低。
聚类性能度量可分两类:第一,有参考模型可比较的,称之为外部指标(external index);第二,直接考察聚类结果,称之为内部指标(internal index),例如 K-means算法。
针对有参考模型的性能度量,通常有以下指标:JC系数(Jaccard Coefficient);FM指数(Fowlkes and Mallows Index,FMI);Rand指数(Rand Index,RI)
针对考察内部结果,有DB指数(Davies-Bouldin Index, DBI);Dunn指数(Dunn Index,DI)
9.3 距离计算
聚类聚类,就是把距离近的归为一类。如何衡量两个样本之间的距离呢?常用的距离函数有:欧氏距离;曼哈顿距离(街区距离);切比雪夫距离等等。而欧氏距离和曼哈顿距离可以用一个通式表示,即闵可夫斯基距离(Minkowski distance) :
当p=1时,
,
就是曼哈顿距离
当p=2时
, ,
就是欧式距离
当属性是 有序的关系时,采用闵可夫斯基计算距离是没问题的,然而当属性是无序属性,例如{飞机,火车,轮船},很显然地,我们不能直接在属性值上采用闵可夫斯基距离。对于无序属性可采用VDM(Value Difference Metric,Stanfill and Waltz,1986)(p200,如果用到,翻书)
- 【机器学习-西瓜书】九、聚类:性能度量;距离计算
- 机器学习算法-聚类(一、性能度量和距离计算)
- 【机器学习-西瓜书】二、性能度量:召回率;P-R曲线;F1值;ROC;AUC
- 机器学习: 性能度量
- 【机器学习-西瓜书】九、K-means;聚类算法划分
- 西瓜书《机器学习》课后答案——chapter10 降维与度量学习
- 机器学习笔记 - 性能度量
- 机器学习之性能度量
- 机器学习模型性能度量
- 机器学习模型性能度量
- 机器学习距离计算
- 《机器学习》(西瓜书) 随笔
- 西瓜书-机器学习《一》
- 机器学习中的各种相似性、距离度量
- 【西瓜书】数据集分割与性能度量
- 【机器学习-西瓜书】八、集成学习:Boosting
- 【机器学习】机器学习中的各种相似性、距离度量
- 【机器学习】机器学习中涉及到的距离度量
- Hadoop上Data Locality
- anaconda的安装与使用
- oracle笔记总结
- [转载]Android APK反编译就这么简单 详解(附图)
- C++ 运算符重载
- 【机器学习-西瓜书】九、聚类:性能度量;距离计算
- BACK按键流程
- 在Ubuntu下利用AndroidStudio查看源码
- order by、group by、distinct、having、group_concat、concat
- sql数据库操作
- 51Nod 1089 最长回文子串 V2(Manacher算法)
- centos 7.2 迁移 mysql 数据库文件
- 关于WSAEWOULDBLOCK错误
- 前端基础