机器学习--k均值聚类
来源:互联网 发布:apache post 编辑:程序博客网 时间:2024/06/05 20:03
机器学习–k均值聚类
如有错误或者疑问,欢迎交流,转载请注明出处
定义
k-means是比较简单而使用的无监督聚类算法,根据特征将样本自动分类成几个类别
算法描述
1.随机选取K个样本作为类别中心
2.repeat直到收敛或规定次数{
对每个样例i 寻找最近的聚类中心,将该中心作为他的类别
c(i):=j that minnmizes||x(i)−μj||2 对于每一个类别,重新计算其聚类中心
μj:=1|cj|∑x∈cjx
}
代码块
talk is cheap, show me the code~
1.随机选取中心
def kmeans_init_centroids(X,k): ''' INPUT: X: (m,n) ndarray m是样本数目,n是特征维度 k: int 类别数目 ''' centroids = np.zeros((K, X.shape[1]))#初始化k个中心 index = np.random.choice(X.shape[0],K,replace=False)#从m个样本中随机选取k个 centroids = X[index] return centroids
2.每个样本划分到自己所属的类别
def find_closest_centroids(X, centroids): K = centroids.shape[0] m = X.shape[0] idx = np.zeros(m)#m个样本的类别index for i in range(m): distance = np.zeros(k) for j in range(k): distance[j] = np.sum((X[i] - centroids[j]) ** 2)) idx[i] = np.argmin(distance) return idx
3.从新计算聚类中心
def compute_centroids(X, idx, k): #idx (m,) ndarray (m,n)=X.shape centroids = np.zeros((k,n)) for i in range(K): index = (idx==i) #return array([True,...,False]) subX = X[index] #选择该类别的样本 centroids[i] = np.mean(subX,axis=0) return centroids
4.k-means
阉割版。。可以看看Andrew的机器学习课后作业
def kmeans(X, initial_centroids, max_iters): (m, n) = X.shape k = initial_centroids.shape[0] centroids = initial_centroids idx = np.zeros(m) for i in range(max_iters): idx = find_closest_centroids(X, centroids) centroids = compute_centroids(X, idx, K) return centroids, idx #返回聚类中心,和每个样例所属的类别index
Andrew课后图像展示
二维平面聚类中心移动图
聚类中心由初始化位置移动到合适位置,形成3个类别
图像压缩实例
将W*H*C的图像转换为(WH)*C的二维矩阵,C是3个通道,RGB,以颜色作为特征进行聚类,选择了16个聚类中心。
这样一来,所有像素点可以划分到这16个类别,用聚类中心代表该类别中的其他像素点,从而减少图像内存大小,同时保留了关键信息,人眼还是可以看出大致轮廓,如下图
阅读全文
1 0
- 机器学习K均值聚类 python
- 机器学习:k均值聚类
- 机器学习--k均值聚类
- 机器学习算法 - k-means Clustering K均值聚类
- 面试:机器学习--k均值聚类(K-means)
- 机器学习--k均值聚类(k-means)算法
- 机器学习---K均值
- 机器学习实战:K-均值及二分K-均值聚类算法
- 机器学习(三)k均值聚类
- 机器学习(九):K-均值聚类算法
- 【机器学习实战04】k-均值聚类算法
- 机器学习(三)k均值聚类
- 《机器学习实战》第十章 :K-均值聚类算法
- 【机器学习实战-python3】K-均值聚类算法
- 机器学习笔记十六 K-均值聚类算法
- 机器学习实战 Ch10 K-均值聚类
- PYTHON机器学习实战——K均值聚类
- 机器学习作业9:k均值聚类
- react router4.0的一些变化
- opencv减色算法
- ESXi 6.x 强制识别 ssd 硬盘
- Spring4实战记录
- 我的收藏
- 机器学习--k均值聚类
- SVM和LSSVM
- C 字符串处理函数
- Android studio JNI的使用
- NOI国家集训队论文集
- 复数类
- Snap.svg实战学习
- EIgen:Matricx和vector类的定义和使用
- 常见算法:C语言求最小公倍数和最大公约数三种算法