似然函数（likelihood）、最大似然函数、最小二乘解

来源：互联网发布：凤凰卫视的立场知乎编辑：程序博客网时间：2024/06/06 05:52

在英语语境里，likelihood 和 probability 的日常使用是可以互换的，都表示对机会 (chance) 的同义替代。但在数学中，probability 这一指代是有严格的定义的，即符合柯尔莫果洛夫公理 (Kolmogorov axioms) 的一种数学对象（换句话说，不是所有的可以用0到1之间的数所表示的对象都能称为概率）。而 likelihood (function) 这一概念是由Fisher提出，他采用这个词，也是为了凸显他所要表述的数学对象既和 probability 有千丝万缕的联系，但又不完全一样的这一感觉。

中文把它们一个翻译为概率（probability），一个翻译为似然（likelihood）也是独具匠心。

似然函数的定义：

$L(\theta | \textbf{x}) = f(\textbf{x} | \theta)$

上式中，小x指的是联合样本随机变量X取到的值，即X= x；这里的θ是指未知参数，它属于参数空间；而

$f(\textbf{x}|\theta)$ 是一个密度函数，特别地，它表示(给定)θ下关于联合样本值x的联合密度函数。

从定义上，似然函数和密度函数是完全不同的两个数学对象：前者是关于θ的函数，后者是关于x的函数。所以这里的等号= 理解为函数值形式的相等，而不是两个函数本身是同一函数（根据函数相等的定义，函数相等当且仅当定义域相等并且对应关系相等）。

两者的联系：

如果X是离散随机变量，那么其概率密度函数 $f(\textbf{x}|\theta)$ 可改写为：

$f(\textbf{x} | \theta) = \mathbb{P}_\theta(\textbf{X} = \textbf{x})$

即代表了在参数为θ下，随机变量X取到x的可能性。并且，如果我们发现：

$L(\theta_1 | \textbf{x} ) = \mathbb{P}_{\theta_1}(\textbf{X} = \textbf{x}) > \mathbb{P}_{\theta_2}(\textbf{X} = \textbf{x}) = L(\theta_2 | \textbf{x})$

那么似然函数就反应出这样一个朴素推测：在参数 $\theta_1$ 下随机向量X取到值x的可能性大于在参数 $\theta_2$ 下随机向量X取到值x的可能性。换句话说，我们更有理由相信相对于 $\theta_2$ 来说 $\theta_1$ 更有可能是真实值。这里的可能性是由概率来刻画。

综上，概率(密度)表达给定 $\theta$ 下样本随机向量X = x的可能性，而似然表达了给定样本X = x下参数 $\theta_1$ (相对于另外的参数 $\theta_2$ )为真实值的可能性。

最大似然估计：

在已知试验结果（即是样本）的情况下，用来估计满足这些样本分布的参数，把可能性最大的那个参数 $\theta$ 作为真实的参数估计。最大似然估计，最大似然估计是建立在这样的思想上：已知某个参数能使这个样本出现的概率最大，我们当然不会再去选择其他小概率的样本，所以干脆就把这个参数作为估计的真实值。

求最大似然函数估计值的一般步骤：
（1）写出似然函数
（2）对似然函数取对数，并整理
（3）求导数
（4）解似然方程

最小二乘法（Least Square ）的解析解可以用 Gaussian 分布以及最大似然估计求得

首先假设线性回归模型具有如下形式：

$f(\mathbf x) = \sum_{j=1}^{d} x_j w_j + \epsilon = \mathbf x \mathbf w^\intercal + \epsilon$

其中： $\mathbf x \in \mathbb R^{1 \times d}$ ， $\mathbf w \in \mathbb R^{1 \times d}$ ，误差 $\epsilon \in \mathbb R$

已知：

$\mathbf X=(\mathbf x_1 \cdots \mathbf x_n)^\intercal \in \mathbb R^{n \times d}$ ， $\mathbf y \in \mathbb R^{n \times 1}$

如何求参数W呢？

如果用最小二乘法的话，有误差函数：

$\text{arg\,min}_{\mathbf w} f(\mathbf w) = \sum_{i=1}^n(\mathbf y_i - \mathbf x_i \mathbf w^\intercal)^2= {\left\lVert{\mathbf y - \mathbf X \mathbf w^\intercal}\right\rVert}_2^2$

我们对W求偏导，然后令个偏导 = 0，联立解方程——这就是最小二乘法求W的过程。

如果用最大似然函数求解的话：

假设误差服从高斯正态分布：

$\epsilon_i \sim \mathcal{N}(0, \sigma^2)$

也就是说：

$\mathbf y_i \sim \mathcal{N}(\mathbf x_i \mathbf w^\intercal, \sigma^2)$

则最大似然估计推导：

$\begin{align*} \text{arg\,max}_{\mathbf w} L(\mathbf w) & = \ln {\prod_{i=1}^n \frac{1}{\sigma \sqrt{2\pi}} \exp(-\frac{1}{2}(\frac{\mathbf y_i - \mathbf x_i \mathbf w^\intercal}{\sigma})^2})\\ & = - \frac{1}{2\sigma^2} \sum_{i=1}^n(\mathbf y_i - \mathbf x_i \mathbf w^\intercal)^2 - n \ln \sigma \sqrt{2\pi} \end{align*}$

对上式求偏导然后令个偏导 = 0，联立解方程。

总结：两者的结果是一样的。

阅读全文

0 0