机器学习基础--最大似然估计

来源：互联网发布：音悦台 for mac 编辑：程序博客网时间：2024/06/06 07:43

昨天作报告，讲到机器学习中的基础知识，最大似然估计，老师提了一个问题，就是为什么会写成那个样子，为什么是求argmax，无法回答，于是还是看看概率论吧

机器学习领域，最常用的参数估计准则就是最大似然估计，而且他和我们代价函数最常用的最小均方误差有直接的联系。它的主要思想就是像一位网友说的“眼见为实”。
先说说一个网上的例子，有一个黑箱子里面有100个球，只有黑白两个颜色，一个颜色90个，另一10个，现在我们从黑盒子里任意抽一个，发现是黑球，那么哪个颜色的球是90个？
我们都知道概率越大，事件越有可能发生，反过来，也就是最大似然估计的原理和思想：事件出现发生，它的概率即应该是较大的那个。那么上述例子，按照最大似然估计的思想来推导出发现黑色球有90个，白色10个。

数学表述

假设一次试验，有n个可能结果A1,A2,...An,假如其中Ai发生了，则认为Ai在这n个结果中的概率最大。
最大似然估计就是一次抽样过程中，得到一组观测值x1,x2,...,xn,取θ^(x1,x2,...,xn)为θ的参数估计，则有θ=θ^时，x1,x2,...,xn出现概率最大。

最大似然函数估计

从似然函数讲起:以离散型变量为例，连续型类似；
首先假定总体X属于离散型，其分布律p(X=x)=p(x,θ),其中θ是待定参数，假设X1,X2,...Xn是从总体抽取的样本，x1,x2,...,xn为与样本对应的观测到的样本值。xi出现的概率是p(xi;θ)，其中i∈(1:n)由于我们在机器学习领域中，获取训练集以及测试集的时候，都是基于一个假设：独立同分布，那么，X1,X2,...Xn的联合分布可以表示为：

\prod i = 1 n p (x i, θ)

那么我们可以推导出：

x1,,x2,...,xn出现的概率应该是：

p(x1,,x2,...,xn;θ)=∏i=1np(xi,θ),θ∈Θ
到这里似然函数就定义为样本值

x1,,x2,...,xn出现的概率，即：

L (x 1,, x 2, . . ., x n; θ) = \prod i = 1 n p (x i, θ), θ \in Θ

似然函数是

θ的函数，之前我们说过当一个事件出现，我们就认为它的概率应该在结果中能获得大的概率，那么我们对于最大似然估计直接的考虑就是：对于出现样本值

x1,x2,x3...xn之后，我们调整似然函数中的参数

θ使得L(x1,,x2,...,xn;θ)的最大，也就是说我们在

θ的取值空间中取出一个

θ^,使得：

L (x 1,, x 2, . . ., x n; θ^) = max θ \in Θ L (x 1,, x 2, . . ., x n; θ)

那么最大估计值

θ^=argmaxθL(x1,,x2,...,xn;θ)=argmaxθ∏i=1np(xi,θ),θ∈Θ

机器学习相关

然后给出机器学习中涉及的最大似然估计：
考虑一组含有m个样本的数据集X={x(1),x(2),...,x(m)},独立的由未知的真实数据分布pdata(x)生成。
令pmodel(x；θ)是一族
由θ确定在相同空间的概率分布，换言之给定x映射到实数来估计真实概率pdata(x)；
那么对于参数θ的最大似然估计被定义为：

θ M L = a r g m a x θ \prod i = 1 n p m o d e l (x i, θ)

多个概率乘积难以计算，我们将之转换为对数似然估计，转化为log的求和。
求和形式是：

θ M L = a r g m a x θ \sum i = 1 m l o g p m o d e l (x (i), θ)

由于我们缩放代价函数的时候，对参数没有影响，对argmax也没有影响，我们除以m得到和训练数据经验分布

p^data 相关的期望作为准则：

θ M L = a r g m a x θ E x \sim p^d a t a l o g p d a t a (x; θ)

0 0