机器学习--k均值聚类

来源：互联网发布：apache post 编辑：程序博客网时间：2024/06/05 20:03

机器学习–k均值聚类

如有错误或者疑问，欢迎交流，转载请注明出处

定义

k-means是比较简单而使用的无监督聚类算法，根据特征将样本自动分类成几个类别

算法描述
1.随机选取K个样本作为类别中心
2.repeat直到收敛或规定次数{
对每个样例i寻找最近的聚类中心，将该中心作为他的类别
c(i):=j that minnmizes ||x(i)−μj||2
对于每一个类别，重新计算其聚类中心
μj:=1|cj|∑x∈cjx
}

代码块

talk is cheap, show me the code~

1.随机选取中心

def kmeans_init_centroids(X,k):    '''    INPUT: X: (m,n) ndarray m是样本数目，n是特征维度           k: int 类别数目    '''    centroids = np.zeros((K, X.shape[1]))#初始化k个中心    index = np.random.choice(X.shape[0],K,replace=False)#从m个样本中随机选取k个    centroids = X[index]    return centroids

2.每个样本划分到自己所属的类别

def find_closest_centroids(X, centroids):    K = centroids.shape[0]    m = X.shape[0]    idx = np.zeros(m)#m个样本的类别index    for i in range(m):        distance = np.zeros(k)        for j in range(k):            distance[j] = np.sum((X[i] - centroids[j]) ** 2))        idx[i] = np.argmin(distance)    return idx

3.从新计算聚类中心

def compute_centroids(X, idx, k):    #idx (m,) ndarray    (m,n)=X.shape    centroids = np.zeros((k,n))    for i in range(K):        index = (idx==i) #return array([True,...,False])        subX = X[index] #选择该类别的样本        centroids[i] = np.mean(subX,axis=0)    return centroids

4.k-means
阉割版。。可以看看Andrew的机器学习课后作业

def kmeans(X, initial_centroids, max_iters):    (m, n) = X.shape    k = initial_centroids.shape[0]    centroids = initial_centroids    idx = np.zeros(m)    for i in range(max_iters):        idx = find_closest_centroids(X, centroids)        centroids = compute_centroids(X, idx, K)    return centroids, idx #返回聚类中心，和每个样例所属的类别index

Andrew课后图像展示

二维平面聚类中心移动图
聚类中心由初始化位置移动到合适位置，形成3个类别
图像压缩实例
将W*H*C的图像转换为(WH)*C的二维矩阵，C是3个通道，RGB，以颜色作为特征进行聚类，选择了16个聚类中心。
这样一来，所有像素点可以划分到这16个类别，用聚类中心代表该类别中的其他像素点，从而减少图像内存大小，同时保留了关键信息，人眼还是可以看出大致轮廓，如下图

阅读全文

1 0