程序博客网 > 上海关键词优化

Mahout kmeans

来源：互联网发布：上海关键词优化编辑：程序博客网时间：2024/05/29 13:31

Kmeans算法

随机选k个中心(选初心)
计算集合内任一点n，与k的距离(测心距)
判断点n属于哪个中心(归簇类)
重新计算簇内的中心(定新心)
条件是否满足，如新心和旧心偏差大于阈值，或迭代次数未满，则继续迭代，否则继续第二步。

Kmeans算法流程图

Canopy算法优化初始值K

Canopy算法

分为两个阶段：
1. stage1：通过快速的，粗略的将数据集分为几个有重叠的子集，称为canopies
2. stage2：在同一canopy中进行精准的，高耗的距离计算
第一阶段，使用简化的距离定义
第二阶段，是标准的聚类算法，使用严格意义的距离定义

如何获得canopies

设定连个阈值，T1，T2，T1>T2
1. 从集合S中，随机取一个点P，作为一个Canopy集合C
2. 计算集合S内任意点Q与P的距离L
1. L小于T1，则Q加入集合C
2. L小于T2，则Q从S中移除,即认为Q与P很接近，属于C了
3. 重复1直到S集合为空
具体参考：

McCallum, A.; Nigam, K.; and Ungar L.H. (2000) “Efficient Clustering of High Dimensional Data Sets with Application to Reference Matching”

Kmeans in Mahout

算法在两个类中实现：
1. KMeansClusterer：内存中聚类 or the
2. KMeansDriverclass：运行MapReduce job聚类

0 0

上海关键词优化

上海关键词优化

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子宾语从句时态状语从句讲解宾语从句顺口溜状语从句思维导图同位语从句例句状语从句引导词定语从句例句100句带解析表语从句例句名词性从句思维导图结果状语从句地点状语从句什么是宾语从句状语从句的省略方式状语从句什么是定语从句七大状语从句口诀状语从句省略初中定语从句顺口溜 that引导的从句宾语从句语序名词性从句总结归纳从句类型及解析 what引导从句英语宾语从句目的状语从句定语从句先行词让步状语从句怎么理解同位语从句引导词表语从句引导词定语从句知识框架图定语从句例句100句定语从句that省略英语定语从句例句定语从句英语非限制性定语从句非限定性定语从句非限制性定语从句引导词从一品和正一品的区别有品必须品集品