数据挖掘十大经典算法(2) The k-means algorithm
来源:互联网 发布:dns域名服务器的作用 编辑:程序博客网 时间:2024/05/22 07:00
k-means algorithm算法是一个聚类算法,把n的对象根据他们的属性分为k个分割,k < n。它与处理混合正态分布的最大期望算法很相似,因为他们都试图找到数据中自然聚类的中心。它假设对象属性来自于空间向量,并且目标是使各个群组内部的均 方误差总和最小。
假设有k个群组Si, i=1,2,...,k。μi是群组Si内所有元素xj的重心,或叫中心点。
k平均聚类发明于1956年, 该算法最常见的形式是采用被称为劳埃德算法(Lloyd algorithm)的迭代式改进探索法。劳埃德算法首先把输入点分成k个初始化分组,可以是随机的或者使用一些启发式数据。然后计算每组的中心点,根据 中心点的位置把对象分到离它最近的中心,重新确定分组。继续重复不断地计算中心并重新分组,直到收敛,即对象不再改变分组(中心点位置不再改变)。
劳埃德算法和k平均通常是紧密联系的,但是在实际应用中,劳埃德算法是解决k平均问题的启发式法则,对于某些起始点和重心的组合,劳埃德算法可能实际上收敛于错误的结果。(上面函数中存在的不同的最优解)
虽然存在变异,但是劳埃德算法仍旧保持流行,因为它在实际中收敛非常快。实际上,观察发现迭代次数远远少于点的数量。然而最近,David Arthur和Sergei Vassilvitskii提出存在特定的点集使得k平均算法花费超多项式时间达到收敛。
近似的k平均算法已经被设计用于原始数据子集的计算。
从算法的表现上来说,它并不保证一定得到全局最优解,最终解的质量很大程度上取决于初始化的分组。由于该算法的速度很快,因此常用的一种方法是多次运行k平均算法,选择最优解。
k平均算法的一个缺点是,分组的数目k是一个输入参数,不合适的k可能返回较差的结果。另外,算法还假设均方误差是计算群组分散度的最佳参数。
- 数据挖掘十大经典算法(二)The k-means algorithm 即K-Means算法
- 数据挖掘十大经典算法(2) The k-means algorithm
- 转载 数据挖掘十大经典算法(2) The k-means algorithm
- 数据挖掘十大经典算法(2) The k-means algorithm
- 数据挖掘十大经典算法(2) The k-means algorithm
- 数据挖掘十大经典算法(2) The k-means algorithm .
- 数据挖掘十大经典算法(2) The k-means algorithm
- 数据挖掘十大经典算法(2) The k-means algorithm
- 数据挖掘十大经典算法(2) The k-means algorithm
- 数据挖掘十大经典算法(2) The k-means algorithm
- 数据挖掘十大经典算法(2) The k-means algorithm
- 十大经典数据挖掘算法之K-Means算法
- 数据挖掘十大经典算法之二:K-means
- 数据挖掘十大经典算法(4) The Apriori algorithm
- 数据挖掘十大经典算法(4) The Apriori algorithm
- 数据挖掘十大经典算法(4) The Apriori algorithm
- 数据挖掘十大经典算法(4) The Apriori algorithm .
- 数据挖掘十大经典算法(4) The Apriori algorithm
- 云计算的安全问题是“伪命题”吗?
- ubuntu中设置synergy自动开机启动
- Matlab动画制作
- AndroidMaps开发之-----maps api key 申请
- oracle 取时间差 Oracle函数大全
- 数据挖掘十大经典算法(2) The k-means algorithm
- AndroidMenifest.xml中android:sharedUserId="android.uid.system权限问题
- word使用技巧2---从任意页开始插入页码
- [源代码管理]vss2005管理vs2010项目
- Activity Affinity and task
- 数据挖掘十大经典算法
- TipsWindown弹出层代码演示地址
- iphone网络编程总结
- Lucene 2.4.1 API