MapReduce实现KMeans

来源:互联网 发布:淘宝联盟旧版本5.2 编辑:程序博客网 时间:2024/06/06 11:37

具体方法:

k-means的每一次迭代都可以分为以下3个步骤。

第一步:Map:对于每一个点,将其对应的最近的聚类中心
这里写图片描述
第二步:Combine:刚完成map的机器在本机上都分别完成同一个聚类的点的求和,减少reduce操作的通信量和计算量。
这里写图片描述
第三步:reduce:将同一聚类中心的中间数据再进行求和,得到新的聚类中心
这里写图片描述

k-means 聚类算法进行 MapReduce 的基本思路:对串行算法中每 1 次迭代启 动对应的 1 次 MapReduce 计算过程,完成数据记录到聚类中心的距离计算以及新 的聚类中心的计算。

流程图如下图所示

这里写图片描述

0 0
原创粉丝点击