聚类(Clustering)理论简介

来源:互联网 发布:网络免费赚钱项目 编辑:程序博客网 时间:2024/06/12 01:32

现实中,人们获得的数据大部分都是未标记(unlabeled data),分类和回归算法不能够处理这些数据,而人工进行标记耗时耗力,也是不可行的。因此,人们处理这些数据的大致步骤是:先采用聚类,将数据划分成若干个簇,再将每个簇(cluster)根据数据的含义定义为一个特定的类,这样相当于给数据进行非人工标记,获得了带标记的数据,这样一来,就可以使用分类和回归算法来训练模型,用于判别新数据(raw data)的类型了。

聚类(clustering)是将数据集D划分成若干互不相交的子集,即’簇’(cluster).通常这个数据集是由无标记(也可以是少部分存在标记)的样本数据构成。它的核心思想是“物以类聚”。怎么“聚”?就是寻找一种合适的距离度量,在结合性能度量来评价,找到更好的且符合要求的聚类结果。
对”簇”的描述中会涉及到一个单词centroid,翻译过来叫做“质心”。每个簇通过其质心(也就是簇中所用点的中心)来描述。离质心越近的数据点,其被分到该簇的可信度越高。