聚类中的簇数选择

来源：互联网发布：淘宝运营计划书编辑：程序博客网时间：2024/06/06 00:13

像其他算法一样，聚类算法也有自己的调整复杂度的控制参数，这就是簇数k。给定k，聚类总是找出k个中心，不管它们是实际上有意义的分组，还是我们使用的算法加强的分组。存在多种调整k的方法：

在某些诸如颜色量化的应用中，k由应用确定。
使用PCA在二维平面绘制数据可能用来发现数据的结构和数据中的簇数。
增量方法可能有助于确定k；设置允许的最大距离等价于设置每个实例的允许的最大重构误差。
在某些实际应用中，分区确认可以人工的进行，即检查簇是否实际上对数据中有意义的分组编码。例如，在数据挖掘应用中，领域专家可以做这项工作。在颜色量化中，我们可以目视检查图像，检查它的质量（尽管我们的眼睛和大脑并不逐个像素分析）

依赖于我们使用的聚类方法类型，我们可以将重构误差或对似然作为K的函数绘制图形，并找出拐点。足够大的k之后，算法将开始分类分组。在这种情况下，重构误差将不会，大幅度降低，对数似然将不会大幅度提高。类似地，在层次聚类，通过观察水平之间的误差，我们可以决定好的划分。

参考：《机器学习导论》一书

0 0