EM算法在K-Means中的运用
来源:互联网 发布:香水小样 知乎 编辑:程序博客网 时间:2024/06/05 02:04
本文摘自《数据挖掘 概念与技术》,范明、孟小峰译,机械工业出版社
相关链接:
EM算法及总结
EM算法在高斯混合分布中的运用
极大似然估计
EM算法在K-Means中的运用
前言
有关于K-Means的算法介绍详情请参考另一片文章K-Means算法介绍。有关于EM算法的只是请参考我的另一篇博客EM算法及总结。
K-Means的简单介绍
假设数据集
基于形心的划分技术使用簇
其中,E是数据集中所有对象的误差的平方和;p时空间中的点,表示给定的数据对象;
现在问题来了,如何优化簇内变差?在最坏的情况下,我们必须枚举大量可能的划分(划分的个数是簇数的指数),并检查簇内变差。在一般的俄欧式空间中,即便对于两个簇(即
算法
EM的算法核心就是E步和M步(期望步和最大化步),能够解决好这两部,问题就基本解决了。
期望步(E-步)
给定当前的簇中心,每个对象都被指派到簇中心离该对象最近的簇。这里,期望每个对象都属于最近的簇。
最大化步(M-步)
给定簇指派,对于每个簇,算法调整其中心,使得指派到该簇的对象到该新中心到的距离之和最小化。也就是说,将指派到一个簇的对象的相似度最大化。
例子
说了这么多,感觉还是很抽象,那么我们来一发示例来看看如何使用EM算法来解决K-Means算法最优化问题。
题目:考虑上图中的六个点,其中显示了点的坐标。让我们使用EM算法计算两个模糊聚类。
解答
首先,我们随机选择两点,如
E-步:对于每一个点,我们计算它属于每个簇的隶属度。对于任意点
其中,公式(1)对应任一点
对于点
M-步: 我们根据划分矩阵重新计算簇的形心,极小化误差平方和(SSE)(想了解SSE的先往下看到分割线后的内容)。新的形心应该调整为:
其中,
我们重复迭代,其中每次迭代包括一个E步和一个M步。下表显示前三次迭代结果。当簇中心收敛或者变化很小的时候(什么时候算小,这取决于你设置的阈值),算法停止。
误差平方和:对象与其被指派到的簇的中心之间的距离或相似度可以用来度量该对象属于簇的程度。这一思想扩充到模糊簇类。对于任意对象
对于对象的误差平法和:
其中,参数
最后,聚类
聚类的SSE可以用来度量模糊聚类对数据集的拟合程度。
- EM算法在K-Means中的运用
- EM算法结合k-means
- 聚类1-K-means-EM算法
- k-means与EM算法小结
- GMM&K-means&EM
- 再论EM算法的收敛性和K-Means的收敛性
- K-Means聚类和EM算法复习总结
- K-Means聚类和EM算法复习总结
- k-means和EM算法的Matlab实现
- 13.k-means聚类,混合高斯,EM算法
- K-means聚类算法背后的EM思想
- 高斯混合模型中的K-means和EM
- Opencv中K均值算法(K-Means)及其在图像分割中的应用
- 机器学习中的算法:K-means聚类
- 基于改进的K-means算法在共享交通行业客户细分中的应用
- 第12节-K-means算法,高斯混合分布和EM求解算法
- K-means算法、EM算法——斯坦福CS229机器学习个人总结(五)
- K-means算法、EM算法——斯坦福CS229机器学习个人总结(五)
- C++文件的写入和读取
- spark1.6编译
- eclipse编写wordcount提交spark运行
- LeetCode | 27. Remove Element
- 让元素有效和无效
- EM算法在K-Means中的运用
- C#关键字之const详解
- boom! charles ios10.3 代理失败 SSLHandshake: Received fatal alert: unknown_ca
- ajax前后台交互实现省市区级联
- 防御XSS攻击的七条原则
- springmvc 上传/下载 文件
- [Network] 计算机网络基础知识总结
- 最原始的android上传图片到服务器代码(包括客户端和服务器端)
- python的切片的理解