【聚类】性能度量

来源:互联网 发布:mac 安装oracle 编辑:程序博客网 时间:2024/06/16 19:19

聚类的性能是很难度量,因为它是从数据中学习,并归类。数据的特性的多方面的,那么归类的结果也会是多种。比如苹果,可以从颜色(红、绿)也可以从形状(圆的、椭圆的)归类,没有一定的形式。
但是我们还是试图找到一些方法来评价聚类算法的性能。主要分为外部指标和内部指标两大类。外部指标是指,将结果与“参考的模型”(分好类)进行对比;内部指标是指,直接利用自身的聚类结果进行评价。

1 常用的外部指标

(1)Jaccard系数
主要判断隶属于相同类的个数。该个数越多,说明聚类效果越好。

2 常用的内部聚类

(1)perplexity值
perplexity值(困惑度)通常用于LDA, HDP等模型上,主要计算特征的概率。值越小越好。
(2)距离计算
类内的样本距离越小越好,类间的距离越大越好。

0 0
原创粉丝点击