Mahout kmeans
来源:互联网 发布:上海关键词优化 编辑:程序博客网 时间:2024/05/29 13:31
Kmeans算法
- 随机选k个中心(选初心)
- 计算集合内任一点n,与k的距离(测心距)
- 判断点n属于哪个中心(归簇类)
- 重新计算簇内的中心(定新心)
- 条件是否满足,如新心和旧心偏差大于阈值,或迭代次数未满,则继续迭代,否则继续第二步。
Kmeans算法流程图
Canopy算法优化初始值K
Canopy算法
分为两个阶段:
1. stage1:通过快速的,粗略的将数据集分为几个有重叠的子集,称为canopies
2. stage2:在同一canopy中进行精准的,高耗的距离计算
第一阶段,使用简化的距离定义
第二阶段,是标准的聚类算法,使用严格意义的距离定义
如何获得canopies
设定连个阈值,T1,T2,T1>T2
1. 从集合S中,随机取一个点P,作为一个Canopy集合C
2. 计算集合S内任意点Q与P的距离L
1. L小于T1,则Q加入集合C
2. L小于T2,则Q从S中移除,即认为Q与P很接近,属于C了
3. 重复1直到S集合为空
具体参考:
McCallum, A.; Nigam, K.; and Ungar L.H. (2000) “Efficient Clustering of High Dimensional Data Sets with Application to Reference Matching”
Kmeans in Mahout
算法在两个类中实现:
1. KMeansClusterer:内存中聚类 or the
2. KMeansDriverclass:运行MapReduce job聚类
0 0
- Mahout-Kmeans
- Mahout kmeans
- mahout使用KMeans算法
- Mahout运行Kmeans
- Mahout-Kmeans MR
- mahout kmeans 测试
- Mahout kmeans聚类
- Mahout 模糊kmeans
- mahout-kmeans笔记
- mahout kmeans 例子
- mahout中的kmeans简单实例
- mahout中的kmeans结果分析
- mahout kmeans 算法源码解读
- mahout之2-Kmeans聚类
- Mahout系列之----kmeans 聚类
- Mahout系列之----kmeans 聚类
- Mahout学习二--kmeans实例
- mahout 中聚类算法kmeans案例
- Android中Handler.removeCallbacksAndMessages(null)的作用
- Mysql索引的创建、删除
- C++进阶之虚函数表
- Hibernate:one-to-one 主外键关联
- codevs 1060
- Mahout kmeans
- list列表去重
- 修改密码
- CSU1566: The Maze Makers(BFS)
- 简析Android中LruCache缓存类
- Android各类事件大全
- 如何使用websocket 主动响应客户端
- thrift框架 序列化及反序列化解析
- [省选前题目整理][BZOJ 1069][SCOI 2007]最大土地面积(旋转卡壳)