聚类中的簇数选择

来源:互联网 发布:淘宝运营计划书 编辑:程序博客网 时间:2024/06/06 00:13

像其他算法一样,聚类算法也有自己的调整复杂度的控制参数,这就是簇数k。给定k,聚类总是找出k个中心,不管它们是实际上有意义的分组,还是我们使用的算法加强的分组。存在多种调整k的方法:

  • 在某些诸如颜色量化的应用中,k由应用确定。
  • 使用PCA在二维平面绘制数据可能用来发现数据的结构和数据中的簇数。
  •  增量方法可能有助于确定k;设置允许的最大距离等价于设置每个实例的允许的最大重构误差。
  • 在某些实际应用中,分区确认可以人工的进行,即检查簇是否实际上对数据中有意义的分组编码。例如,在数据挖掘应用中,领域专家可以做这项工作。在颜色量化中,我们可以目视检查图像,检查它的质量(尽管我们的眼睛和大脑并不逐个像素分析)

        依赖于我们使用的聚类方法类型,我们可以将重构误差或对似然作为K的函数绘制图形,并找出拐点。足够大的k之后,算法将开始分类分组。在这种情况下,重构误差将不会,大幅度降低,对数似然将不会大幅度提高。类似地,在层次聚类,通过观察水平之间的误差,我们可以决定好的划分。


参考:《机器学习导论》一书

0 0