程序博客网 > 大型体育赛事数据服务

混合高斯模型及其求解方法

来源：互联网发布：大型体育赛事数据服务编辑：程序博客网时间：2024/06/05 01:00

高斯分布是机器学习领域中一个重要的概率分布模型，高斯模型分为单高斯模型和混合高斯模型，其中，混合高斯分布能更好地刻画历史数据集中的数据分布，因此，本文将详细叙述混合高斯模型的理论及其模型求解方法。

首先，先介绍单高斯模型。多维高斯分布的概率密度函数定义如下：

（1）

其中，为维的样本空间，是样本集的期望，是方差。由于单高斯模型可以明确训练样本是否属于该高斯模型，因此通常由训练样本的均值代替，由样本方差代替。为了高斯分布用于模型分类，式（1）可以改为：

（2）

式（2）表明样本属于类别C的概率大小。从而，将任意测试样本输入式（2），均可以得到一个标量，然后，根据一个阈值t来确定该样本是否属于该类别，根据经验，阈值t一般取0.7~0.75之间。

针对复杂数据集而言，一个单高斯模型往往不能完整地描述其数据的分布情况，因此需要用多个高斯模型来逼近数据的分布，即，使用混合高斯模型（GMM, Gaussian Mixture Model）来逼近。

在GMM中，对于给定的训练集样本，其隐含类别标签用表示。假设满足多项式分布，其中，且和为1，而且在给定后，假定满足多值高斯分布，则可以得到与的联合概率密度，如式（3）所示

（3）

GMM模型中有3个需要求解的变量，分别为。则参数的求解可以采用极大似然估计的思想，根据以上描述，可以得到似然函数，由于概率值一般都很小，当m很小的时候，连乘的结果非常小，容易造成浮点数下溢，所以我们通常取log，如式（4）所示：

（4）

将式（3）代入（4）中，得到：

（5）

在做参数估计的时候，一般是通过对待求变量进行求导来求极值的，但是，上式中，log中又有求和，故如果采取求导的方式求极值，将会十分复杂，且没有闭合解。因此，可以采用EM算法来估计各个参数，EM算法的求解分为两步：第一步，假设知道各个高斯模型的参数（可以初始化，或基于上一步迭代结果），然后去估计每个高斯模型的权值；第二步，基于估计的权值，再去迭代高斯模型的参数，重复这两步，直到收敛为止。EM具体表达如下：

1.（E step）

对于第i个样本来说，它由第s个model生成的概率为：

（6）

2. （M step）

在得到每个点的后，由于对于样本来说，它的的值是由第s个高斯模型产生的。因此，在估计第s个高斯模型的参数时，我们就用这些数据去做参数估计，将采用极大似然的方法去估计：

用表示求解的参数，那么对于历史日志中的每条记录，其总体概率分布可以看做由k个加权的高斯函数的线性组合构成，如下：

（7）

其中，是对象在第i个子类的高斯分布概率。

阅读全文

1 0

大型体育赛事数据服务

大型体育赛事数据服务

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子北京虎牌保险柜维修北京狗图片北京卡斯罗犬价格北京德国牧羊犬犬舍北京犬价格北京犬舍北京松狮犬舍北京卡斯罗犬舍北京犬多少钱一只北京犬图片白贵宾犬房东的猫北京演唱会北京猫北京好吗北京好玩北京游玩北京攻略北京游玩的地方来北京必须去的地方北京哪儿好玩北京游玩的好地方北京游玩景点排名北京一日游游玩攻略北京景点游玩攻略去北京玩三天一千够吗 2018北京欢乐谷必玩顺序一家人去北京玩一周花费2018 北京带孩子去哪玩去北京怎么玩省时省钱北京晚上去哪儿玩北京晚上适合去哪里玩北京可以玩的地方北京玩的景点北京玩什么北京中秋去哪玩北京玩北京欢乐谷必玩项目北京值得玩的地方北京带小孩去哪里玩北京附近玩的地方北京玩几天合适