TwoStep Cluster

来源：互联网发布：淘宝美工培训费用编辑：程序博客网时间：2024/06/05 05:20

http://blog.sina.com.cn/s/blog_6c3609720100o43t.html

TwoStep Cluster属于近年来才发展起来的智能聚类方法的一种，用于解决海量数据，复杂类别结构时的聚类分析问题。与传统的层次聚类和快速聚类法相比，两步聚类法有鲜明的特点。

首先，用于聚类的变量可以使连续变量，也可以是离散变量，不必像其他算法那样，在进行聚类之前对离散变量进行连续化处理；

其次，两步聚类法占用的内存资源少，对于大数据量，运算速度较快。

最后，它是真正的在利用统计量作为距离指标进行聚类，同时又可以根据一定的统计标准自动地建议甚至于确定最佳的类别数。

顾名思义，两步聚类是通过两个步骤来完成聚类工作。

一、预聚类

这一步骤通过构建和修改聚类特征树（Cluster Feature Tree）完成。聚类特征数包含许多层的节点，每一节点包含若干个条目，而每一个叶子节点代表一个子类，有多少个叶子就有多少个子类。而那些叶子节点和其中的条目用来指引新进入的记录应该进入那个叶子节点，每个条目中的信息就是所谓的聚类特征（Cluster Feature），包括针对连续变量的均值和方差以及针对离散变量的记数。

针对每一个记录，都要从根开始进入聚类特征数，并依照节点中条目信息的指引找到最接近的子节点，直到到达叶子节点为止。如果这一纪录与叶子节点中的距离小于临界值，那么它进入该子节点，并且子节点的聚类特征得到更新，反之，该纪录会重新生成一个新的叶子节点。如果这时子节点的数目已经大于指定的最大聚类数量，则聚类特征树会通过调整距离临界值的方式重新构建。当所有的记录通过上面的方式进入聚类特征树，预聚类过程也就结束了，子节点的数量就是预聚类数量。

二、正式聚类

将第一步完成的预聚类作为输入，对之进行聚类，直到使用者指定的类别。由于在这个阶段所需处理的类别已经远小于原始数据的数量，所以我们可以采用传统的聚类方法进行处理就可以了。

其中在层次聚类的每一个阶段，都会计算反映现有分类是否适合现有数据的统计指标：AIC（Akaike Information Criterion），或者BIC（Schwartz Bayesian Criterion）准则，这两个指标越小，说明聚类效果越好，两步聚类算法会根据AIC和BIC的大小，以及类间最短距离的变化来确定最优的聚类类别数。

0 0