20150913K-means聚类.md
来源:互联网 发布:淘宝cku总统妈妈犬舍 编辑:程序博客网 时间:2024/06/07 02:42
1.聚类的思想:
将一个有N个对象的数据集,构造成k(k<=n)个划分,每个划分代表一个簇。使得每个簇包含一个对象,每个对象有且仅属于一个簇。
对于给定的k,算法首先给出一个初始的划分方法,以后通过反复迭代的方法改变划分,使得每一次改进之后的划分方案都较前一次更好。
2.K-means聚类
2.1K-means聚类的思想
K-means算法使用广泛,有时候也作为其他聚类算法的基础。
算法首先随机选择k个对象,每个对象初始地代表了一个簇的平均值和中心。对剩余的每个对象根据其与各个簇中心的距离,将它赋给最近的簇。然后重新计算每个簇的平均值。这个过程不断重复,直到准则函数(常常使用最小平方误差)收敛。
其损失函数表达式为
2.2K-means聚类的算法步骤
输入:n个样本数据,分别为$x_1,x_2,\cdots,x_n$1. 随机选择k个聚类中心,$\mu_1,\mu_2,\cdots,\mu_k \in \mathbb{R}^{n}$2. 针对剩余的样本数据,将其类别标签设为距离其最近的聚类中心的标签。3. 将每个聚类中心的值更新为与该类所有样本的平均值。4. 重复以上步骤,直到聚类中心的变化小于规定的阈值即可。
2.3K-means聚类代码实现
2.3.1随机构造二维数据集
# -*- coding:utf-8 -*-import matplotlib.pyplot as pltfrom numpy import *import randomflag = ['b*','g+','rs','sb', 'db', '<b', 'pb']def create(): num = 100 data = [[],[],[]] dataCenter = [(2,3),(2.5,3),(2,2.5)] for i in xrange(len(data)): for j in xrange(num): data[i].append((dataCenter[i][0]+random.uniform(-1,1)**2*random.uniform(-1,1), dataCenter[i][1]+random.uniform(-1,1)**2*random.uniform(-1,1))) ##draw picture global flag for i in xrange(len(data)): for j in data[i]: plt.plot(j[0],j[1],flag[i]) plt.show() return data[0]+data[1]+data[2]
2.3.2K-means聚类python实现
# -*- coding:utf-8 -*-import matplotlib.pyplot as pltfrom numpy import *import random##计算两个点之间的距离,这里采用的是欧式距离,关于距离的选择,看场景。def distEclud(vecA, vecB): return sqrt(sum(power(vecA-vecB,2)))##初始化选择k个质心,这里选用的是从n个点中随机选出k个质心。def initCenter(data, k=2): n = shape(data)[1] centers = mat(zeros((k,n))) for i in xrange(k): index = int(random.uniform(0,len(data))) centers[i] = data[index] return centers##计算上次和本次质心的距离偏差def deltaCenter(centers, centersNext): return sqrt(sum(power(centers-centersNext,2)))def KMeans(data,k=2): centers = initCenter(data, k) centersNext = mat(zeros((k,shape(data)[1]))) dataNum = shape(data)[0] clusterRes = mat(zeros((dataNum,2))) eps = 0.01 delta = inf freq = 10 while eps < delta and freq>0: freq -= 1 ##针对每个点划分类别 for i in xrange(dataNum): mindist = inf for j in xrange(k): dist = distEclud(centers[j],data[i]) if dist<mindist: mindist = dist minIndex = j clusterRes[i] = [minIndex,mindist] ##recalc the center of cluster for j in xrange(k): clusterData = data[nonzero(clusterRes[:,0].A==j)[0]] centers[j] = mean(clusterData, axis=0) ##计算上一次聚类中心和这一次的变动 delta = deltaCenter(centers,centersNext) ##draw results # global flag # for i in xrange(k): # clusterData = data[nonzero(clusterRes[:,0].A==i)[0]] # for j in clusterData: # plt.plot(j[0,0],j[0,1],flag[i]) # plt.show() return centers,clusterResif __name__ == '__main__': data = create() KMeans(mat(data),3)
3个聚类中心依次为:[1.95408899 2.44211387] [ 1.97371672 3.04483904][ 2.59031316 2.9787235 ]
2.4K-means聚类缺点
初值敏感
对噪声敏感
不适于发现非凸面形状的簇或大小差别很大的簇
无法保证收敛到全局最优
有可能会出现某个聚类中心没有任何样本
3.二分K-means
3.1二分K-means算法步骤
由于K-means算法有时候容易收敛到局部最小值,因此就提出了二分K-means。
该算法是将所有点作为一个簇,然后将该簇一分为二,之后选择其中一个簇进行划分,选择哪一个簇进行划分取决于对其划分是否可以最大程度降低SSE(误差平方和)的值,直到得到指定的簇数目为止。
聚类的SSE能够衡量聚类的性能,该值越小表示数据点越接近于它们的质心,聚类效果越好。所以
将所有数据看成一个簇,对该簇进行二分K-means当簇的数目小于k时 对每一个簇 进行K-means划分,其中K=2 计算划分后的总误差 选择总误差最小的那个簇进行划分
3.2二分K-means代码实现
# -*- coding:utf-8 -*-######################################### kmeans: k-means cluster# Author : xuke# Date : 2015-09-14########################################import matplotlib.pyplot as pltfrom numpy import *import randomflag = ['b*','g+','rs','sb', 'db', '<b', 'pb']def biKmeans(data,k=2): dataNum = shape(data)[0] clusterRes = mat(zeros((dataNum,2))) center0 = mean(data,axis=0).tolist()[0] centers = [center0] ##计算一簇的簇心 for i in xrange(dataNum): clusterRes[i,1] = distEclud(mat(center0), data[i]) while (len(centers) < k): minSSE = inf ##遍历每个簇,划分每个簇,求得每个簇的SSE for i in xrange(len(centers)): dataNow = data[nonzero(clusterRes[:,0].A==i)[0],:] centerTemp, clusterResTemp = KMeans(dataNow,2) dataSSE = sum(clusterResTemp[:,1]) dataNoSSE = sum(clusterRes[nonzero(clusterRes[:,0].A!=i)[0],1]) if dataSSE + dataNoSSE < minSSE: bestCluster = i bestCenter = centerTemp bestClusterResTemp = clusterResTemp.copy() minSSE = dataSSE + dataNoSSE ##为选择出的最佳划分簇,打上类别,假设第2簇需要划分,且现在共有4簇,则第2簇打上2,4label。 bestClusterResTemp[nonzero(bestClusterResTemp[:,0].A == 1)[0],0] = len(centers) bestClusterResTemp[nonzero(bestClusterResTemp[:,0].A == 0)[0],0] = bestCluster ##将最佳质心append进centers这个list centers[bestCluster] = bestCenter[0,:].tolist()[0] centers.append(bestCenter[1,:].tolist()[0]) clusterRes[nonzero(clusterRes[:,0].A == bestCluster)[0],:] = bestClusterResTemp ##draw results global flag for i in xrange(k): clusterData = data[nonzero(clusterRes[:,0].A==i)[0]] for j in clusterData: plt.plot(j[0,0],j[0,1],flag[i]) plt.show() return mat(centers), clusterResif __name__ == '__main__': data = create() # print KMeans(mat(data), 4)[0] print biKmeans(mat(data), 3)[0]
0 0
- 20150913K-means聚类.md
- 二分K-means聚类,K-Means改进
- K-Means聚类 K-Means Clustering
- 聚类:K-Means
- K-Means 聚类 sample
- 聚类:K-means算法
- OpenCV k-means聚类
- K-means聚类
- Mahout K-means聚类
- K-means聚类
- K-MEANS聚类
- k-means聚类
- k-means聚类
- K-means聚类
- Mahout K-means聚类
- K-means++ 聚类
- 【数据结构】K-means聚类
- 模糊k-means聚类
- localhost与127.0.0.1的区别
- python中的字典详细介绍
- 安卓build编译各种系统镜像的过程。
- ButterKnife--View注入框架
- QT4.8.4+DirectFB1.4.3
- 20150913K-means聚类.md
- 根据命令行生成cxf客户端
- 设计模式之建造者模式
- jawin方式操作dll动态库
- activity中用到多个fragment,资源被回收后,出现未知异常
- libevent 编程 二:bufferevent
- tableView取消选中行的选中状态
- 国内常用ntp服务器
- Hibernate联合主键映射