聚类（Clustering）理论简介

来源：互联网发布：网络免费赚钱项目编辑：程序博客网时间：2024/06/12 01:32

现实中，人们获得的数据大部分都是未标记(unlabeled data)，分类和回归算法不能够处理这些数据，而人工进行标记耗时耗力，也是不可行的。因此，人们处理这些数据的大致步骤是：先采用聚类，将数据划分成若干个簇，再将每个簇(cluster)根据数据的含义定义为一个特定的类，这样相当于给数据进行非人工标记，获得了带标记的数据，这样一来，就可以使用分类和回归算法来训练模型，用于判别新数据（raw data）的类型了。

聚类(clustering)是将数据集D划分成若干互不相交的子集，即’簇’（cluster）.通常这个数据集是由无标记（也可以是少部分存在标记）的样本数据构成。它的核心思想是“物以类聚”。怎么“聚”？就是寻找一种合适的距离度量，在结合性能度量来评价，找到更好的且符合要求的聚类结果。
对”簇”的描述中会涉及到一个单词centroid,翻译过来叫做“质心”。每个簇通过其质心（也就是簇中所用点的中心）来描述。离质心越近的数据点，其被分到该簇的可信度越高。

阅读全文

0 0