聚类(二)

来源:互联网 发布:鼠标自动隐藏软件 编辑:程序博客网 时间:2024/06/17 05:21

k-means 的结果是每个数据点被 assign 到其中某一个 cluster 了属于硬化分。
而 GMM 则给出这些数据点被 assign 到每个 cluster 的概率,又称作 soft assignment (软化分)。

在机器学习中,一个学习算法也会有一个前提假设,这里被称作“归纳偏执 (bias)”。例如线性回归,目的是要找一个函数尽可能好地拟合给定的数据点,它的归纳偏执就是“满足要求的函数必须是线性函数”。
GMM就是假设数据服从 Mixture Gaussian Distribution ,换句话说,数据可以看作是从数个 Gaussian Distribution 中生成出来的。

高斯混合模型(Gaussian Mixture Model, GMM) 是一种概率式的聚类方法,属于生成式模型,它假设所有的数据样本都是由某一个给定参数的 多元高斯分布 所生成的。具体地,给定类个数K,对于给定样本空间中的样本 ,一个高斯混合模型的概率密度函数可以由K个多元高斯分布组合成的混合分布表示:

原创粉丝点击