Canopy算法原理

来源:互联网 发布:知进退明得失手抄报 编辑:程序博客网 时间:2024/06/05 18:18

Canopy聚类算法是一个将对象分组到类的简单、快速、精确地方法。每个对象用多维特征空间里的一个点来表示。这个算法使用一个快速近似距离度量和两个距离阈值 T1>T2来处理。

基本的算法是:从一个点集合开始并且随机删除一个,创建一个包含这个点的Canopy,并在剩余的点集合上迭代。对于每个点,如果它与这个Canopy的距离小于T1,那么就将这个点就加入这个Canopy中。除此之外,如果这个距离<T2,那么就将这个点从这个集合中删除。这样非常靠近原点的点将避免所有的未来处理。这个算法循环到初始集合为空为止,聚集一个集合的Canopies,每个可以包含一个或者多个点。每个点可以包含在多于一个的Canopy中。

while(list不为空)

{

1:随机从list中删除一个点并创建这个点的Canopy;

2:从list中剩余的点的第一个开始,如果这个点与Canopy的距离<T1,则将这个点加入到Canopy;如果这个点与Canopy的距离<T2,

那么将这个点从list中删除。

}

原创粉丝点击