聚类算法评价指标
来源:互联网 发布:淘宝苹果id代充 编辑:程序博客网 时间:2024/06/05 09:07
一、Not Given Label:
1、Compactness(紧密性)(CP)
CP计算 每一个类 各点到聚类中心的平均距离
CP越低意味着类内聚类距离越近
缺点:没有考虑类间效果
2、Separation(间隔性)(SP)
SP计算 各聚类中心两两之间平均距离
SP越高意味类间聚类距离越远
缺点:没有考虑类内效果
3、Davies-Bouldin Index(戴维森堡丁指数)(分类适确性指标)(DB)(DBI)
DB计算 任意两类别的类内距离平均距离(CP)之和除以两聚类中心距离 求最大值
DB越小意味着类内距离越小 同时类间距离越大
缺点:因使用欧式距离 所以对于环状分布 聚类评测很差
4、Dunn Validity Index (邓恩指数)(DVI)
DVI计算 任意两个簇元素的最短距离(类间)除以任意簇中的最大距离(类内)
DVI越大意味着类间距离越大 同时类内距离越小
缺点:对离散点的聚类测评很高、对环状分布测评效果差
二、Given Label:
1、Cluster Accuracy (准确性)(CA)
CA计算 聚类正确的百分比
CA越大证明聚类效果越好
2、Rand index(兰德指数)(RI) 、Adjusted Rand index(调整兰德指数)(ARI)
其中C表示实际类别信息,K表示聚类结果,a表示在C与K中都是同类别的元素对数,b表示在C与K中都是不同类别的元素对数
其中表示数据集中可以组成的对数,RI取值范围为[0,1],值越大意味着聚类结果与真实情况越吻合。
RI越大表示聚类效果准确性越高 同时每个类内的纯度越高
为了实现“在聚类结果随机产生的情况下,指标应该接近零”,调整兰德系数(Adjusted rand index)被提出,它具有更高的区分度:
ARI取值范围为[−1,1],值越大意味着聚类结果与真实情况越吻合。从广义的角度来讲,ARI衡量的是两个数据分布的吻合程度。
3、Normalized Mutual Information (标准互信息)(NMI)、Mutual Information(互信息)(MI)
标准化互聚类信息都是用熵做分母将MI值调整到0与1之间,一个比较多见的实现是下面所示:
参考文献
1.Fahad A, Alshatri N, Tari Z, et al. A survey of clustering algorithms for big data: Taxonomy and empirical analysis[J]. IEEE transactions on emerging topics in computing, 2014, 2(3): 267-279.
2.评价指标-简书
3.DSSP聚类评价指标
4.聚类的一些评价手段
5.聚类评价指标 Rand Index,RI,Recall,Precision,F1
6.Evaluation of clustering
7.wiki
- 聚类算法评价指标
- 聚类算法评价指标
- 聚类算法的评价指标
- 聚类评价指标
- 数据挖掘系列(四)聚类算法评价指标
- 聚类的一些评价指标
- 聚类评价指标(一)
- 聚类效果好坏的评价指标
- ARI聚类效果评价指标
- 多目标跟踪算法评价指标
- 机器学习算法评价指标
- 聚类算法评价指标:Purity、NMI、MI、entropy、precision、recall、F值、RI值
- 分类算法中常用的评价指标
- 常用的一些算法模型评价指标
- 分类算法中常用的评价指标
- 聚类评价指标 Rand Index,RI,Recall,Precision,F1
- 聚类评价指标(整理)【图片看原文】
- 聚类评价指标 Rand Index,RI,Recall,Precision,F1
- JZOJ4774 【GDOI2017模拟9.10】子串 线段树合并维护SAM的fail树信息(CF 666E类似)
- C++ operator关键字(重载操作符)
- Struts2_05_ActionMethod动态方法调用_DMI
- shell脚本执行出错时处理
- 第七周项目3-用多文件组织多个类的程序
- 聚类算法评价指标
- poj 1190 生日蛋糕(dfs 剪枝)
- location.href的用户总结
- Android编程日记
- 高德地图添加Marker后返回当前位置
- Nmap扫描
- 复赛模拟试题 - 收费站 Dijkstra迪杰斯特拉+二分答案法 重庆一中高2018级竞赛班第九次测试 2016.9.10 Problem 4
- Python笔记
- JS和jQ的总结--事件