机器学习--k均值聚类

来源:互联网 发布:apache post 编辑:程序博客网 时间:2024/06/05 20:03

机器学习–k均值聚类

如有错误或者疑问,欢迎交流,转载请注明出处

定义

k-means是比较简单而使用的无监督聚类算法,根据特征将样本自动分类成几个类别

  • 算法描述
    1.随机选取K个样本作为类别中心
    2.repeat直到收敛或规定次数{
       对每个样例i寻找最近的聚类中心,将该中心作为他的类别
       c(i):=j that minnmizes  ||x(i)μj||2

       对于每一个类别,重新计算其聚类中心
       μj:=1|cj|xcjx
    }

代码块

talk is cheap, show me the code~

1.随机选取中心

def kmeans_init_centroids(X,k):    '''    INPUT: X: (m,n) ndarray m是样本数目,n是特征维度           k: int 类别数目    '''    centroids = np.zeros((K, X.shape[1]))#初始化k个中心    index = np.random.choice(X.shape[0],K,replace=False)#从m个样本中随机选取k个    centroids = X[index]    return centroids

2.每个样本划分到自己所属的类别

def find_closest_centroids(X, centroids):    K = centroids.shape[0]    m = X.shape[0]    idx = np.zeros(m)#m个样本的类别index    for i in range(m):        distance = np.zeros(k)        for j in range(k):            distance[j] = np.sum((X[i] - centroids[j]) ** 2))        idx[i] = np.argmin(distance)    return idx

3.从新计算聚类中心

def compute_centroids(X, idx, k):    #idx (m,) ndarray    (m,n)=X.shape    centroids = np.zeros((k,n))    for i in range(K):        index = (idx==i) #return array([True,...,False])        subX = X[index] #选择该类别的样本        centroids[i] = np.mean(subX,axis=0)    return centroids

4.k-means
阉割版。。可以看看Andrew的机器学习课后作业

def kmeans(X, initial_centroids, max_iters):    (m, n) = X.shape    k = initial_centroids.shape[0]    centroids = initial_centroids    idx = np.zeros(m)    for i in range(max_iters):        idx = find_closest_centroids(X, centroids)        centroids = compute_centroids(X, idx, K)    return centroids, idx #返回聚类中心,和每个样例所属的类别index

Andrew课后图像展示

  • 二维平面聚类中心移动图
    聚类中心由初始化位置移动到合适位置,形成3个类别
    这里写图片描述
    这里写图片描述

  • 图像压缩实例
    将W*H*C的图像转换为(WH)*C的二维矩阵,C是3个通道,RGB,以颜色作为特征进行聚类,选择了16个聚类中心。
    这样一来,所有像素点可以划分到这16个类别,用聚类中心代表该类别中的其他像素点,从而减少图像内存大小,同时保留了关键信息,人眼还是可以看出大致轮廓,如下图
    这里写图片描述

原创粉丝点击