机器学习笔记--GMM模型

来源:互联网 发布:mac安装win10时蓝屏 编辑:程序博客网 时间:2024/06/07 21:53

1. 高斯分布的一些结论:

利用似然估计对一组符合高斯分布的数据进行分析,得到其均值的估计就是样本的均值,方差的估计就是样本方差。

具体推导如下

高斯分布的概率密度函数为


对一组符合高斯分布的样本进行似然估计,将样本代入概率密度函数,有目标函数


转换成对数似然


分别对均值和方差求导,可以得到


高斯混合模型是由多个高斯模型混合。其目标函数


这表明一个样本多个不同比重的高斯分布混合形成的,每个高斯分布对样本的贡献,可以这样做


这其实就是样本属于某一个高斯分布的概率。

所以高斯混合模型的参数估计可以分成两步做

第一步是先验的给出均值和方差,还要先验的给出每个高斯分布出现的概率。然后计算每一个样本属于某个高斯分布的概率,这是可以求得,因为我们先验的给出了每一个高斯分布的均值和方差,只要把样本值代进上式,就能计算出该样本属于每一个高斯分布的概率。

第二步是根据样本更新参数。

此处详见李航-统计学习方法165页


对于混合高斯模型,举个简单的例子。对于10000个男女生样本,他们的身高都服从高斯分布,也就是男生的身高服从一个高斯分布,女生的身高服从一个高斯分布。估计这两个高斯分布的均值和方差。

第一步,先验的给出女生和男生样本的概率和女生身高所服从的高斯分布的均值和方差,男生身高所服从的高斯分布的均值和方差。然后对于每一个样本,计算属于男生的概率和属于女生的概率。这样我们可以算出所有样本的概率。

第二步,用样本值分别乘上该样本属于男生和女生的概率,这样一个样本可以得到两个值,分别代表了属于男生和属于女生。然后用所有样本的属于男生的那部分作为新的样本集估计男生的概率密度分布的均值和方差,用所有样本的属于女生的那部分作为新的样本集估计女生的概率密度分布的均值和方差。但是要注意的一点是

在计算均值是n并不是1000,而应该是所有样本的那些属于男生的概率之和,记为N男。而N男/10000,就是新的男生出现的概率。女生同理。

这样得到的均值和方差就带有了样本的一些信息,比之前先验的给出更加的符合样本。