机器学习基础--最大似然估计

来源:互联网 发布:音悦台 for mac 编辑:程序博客网 时间:2024/06/06 07:43

昨天作报告,讲到机器学习中的基础知识,最大似然估计,老师提了一个问题,就是为什么会写成那个样子,为什么是求argmax,无法回答,于是还是看看概率论吧

机器学习领域,最常用的参数估计准则就是最大似然估计,而且他和我们代价函数最常用的最小均方误差有直接的联系。它的主要思想就是像一位网友说的“眼见为实”。
先说说一个网上的例子,有一个黑箱子里面有100个球,只有黑白两个颜色,一个颜色90个,另一10个,现在我们从黑盒子里任意抽一个,发现是黑球,那么哪个颜色的球是90个?
我们都知道概率越大,事件越有可能发生,反过来,也就是最大似然估计的原理和思想:事件出现发生,它的概率即应该是较大的那个。那么上述例子,按照最大似然估计的思想来推导出发现黑色球有90个,白色10个。

数学表述

假设一次试验,有n个可能结果A1,A2,...An,假如其中Ai发生了,则认为Ai在这n个结果中的概率最大。
最大似然估计就是一次抽样过程中,得到一组观测值x1,x2,...,xn,取θ^(x1,x2,...,xn)θ的参数估计,则有θ=θ^时,x1,x2,...,xn出现概率最大。

最大似然函数估计

从似然函数讲起:以离散型变量为例,连续型类似;
首先假定总体X属于离散型,其分布律p(X=x)=p(x,θ),其中θ是待定参数,假设X1,X2,...Xn是从总体抽取的样本,x1,x2,...,xn为与样本对应的观测到的样本值。xi出现的概率是p(xi;θ)i(1:n)由于我们在机器学习领域中,获取训练集以及测试集的时候,都是基于一个假设:独立同分布,那么,X1,X2,...Xn的联合分布可以表示为:

i=1np(xi,θ)
那么我们可以推导出:x1,,x2,...,xn出现的概率应该是:p(x1,,x2,...,xn;θ)=i=1np(xi,θ),θΘ
到这里似然函数就定义为样本值x1,,x2,...,xn出现的概率,即:
L(x1,,x2,...,xn;θ)=i=1np(xi,θ),θΘ
似然函数是θ的函数,之前我们说过当一个事件出现,我们就认为它的概率应该在结果中能获得大的概率,那么我们对于最大似然估计直接的考虑就是:对于出现样本值x1,x2,x3...xn之后,我们调整似然函数中的参数θ使L(x1,,x2,...,xn;θ)的最大,也就是说我们在θ的取值空间中取出一个θ^,使得:
L(x1,,x2,...,xn;θ^)=maxθΘL(x1,,x2,...,xn;θ)
那么最大估计值θ^=argmaxθL(x1,,x2,...,xn;θ)=argmaxθi=1np(xi,θ),θΘ

机器学习相关

然后给出机器学习中涉及的最大似然估计:
考虑一组含有m个样本的数据集X={x(1),x(2),...,x(m)},独立的由未知的真实数据分布pdata(x)生成。
pmodel(xθ)是一族
θ确定在相同空间的概率分布,换言之给定x映射到实数来估计真实概率pdata(x)
那么对于参数θ的最大似然估计被定义为:

θML=argmaxθi=1npmodel(xi,θ)
多个概率乘积难以计算,我们将之转换为对数似然估计,转化为log的求和。
求和形式是:
θML=argmaxθi=1mlogpmodel(x(i),θ)
由于我们缩放代价函数的时候,对参数没有影响,对argmax也没有影响,我们除以m得到和训练数据经验分布p^data 相关的期望作为准则:
θML=argmaxθExp^datalogpdata(x;θ)

0 0
原创粉丝点击