【机器学习笔记】最大似然估计法与LR中 J of theta 的概率解释

来源：互联网发布：苹果软件打不开要信任编辑：程序博客网时间：2024/06/03 17:19

看公开课的时候再次遇到，决心搞懂他…

首先是Andrew Ng在公开课中提到为什么LR的损失函数要用最小二乘，给出了概率解释，是在样本误差服从IID，并且误差整体服从高斯分布的最大似然函数的log表出。

最大似然估计法

先从一个比较普遍的例子讲起：

如果做一个放回的小球实验，袋子里即有不确定数量的黑色和白色的小球，我们每次拿出一个，记录颜色放回，重复100次；

如果在100次中，有70次黑球，30次白球，设每次抽到黑球的概率为 p ，那么我们可以大致估计 p 可能等于 0.7

如果从数学的角度去解释，首先这是一个独立实验，即每次取出然后放回的操作，不会影响下一次的操作；记第 i 次实验的结果为 xi ，同时我们假设有一个模型可以表示这个事件，并且这个模型的参数是 p ；就有：

P (x 1, x 2, . . ., x 100 | M o d e l) = \prod i = 1 100 p (x i | M o d e l) = p 70 (1 - p) 30

我们希望通过调整参数 p ，使得如上样本的情况出现的概率最大，那么定义一个似然函数 L(p)=p70(1−p)30 ，通过最大化 L(p) ，求解参数 p ，我们只需对 L(p) 求导等于0，就能求到极值，在这里也就是最值，得到 p=0.7 。

总结一下，就是已知样本，希望通过调整模型参数来使得模型能够最大化样本情况出现的概率。

我们在LR中首先做这样的假设：

y (i) = h θ (x (i)) + ϵ (i) = θ T x (i) + ϵ (i)

然后直接提出了最小化损失函数 J(θ) （如下形式）为我们的优化目标：

J (θ) = 1 2 \sum i = 1 n (h θ (x (i)) - y (i)) 2

为了类比，我们首先将误差看作如上实验中的黑色小球，我们已经通过 y(i),x(i),θ 得到了样本结果 ϵ(i) ，这里模型参数是 θ 类比一下得到：

P (ϵ (1), ϵ (2), . . ., ϵ (n) | M o d e l) = \prod i = 1 n p (ϵ (i) | θ)

同时我们定义似然函数 L(θ)==∏ni=1p(ϵ(i)|θ) ，然后最大化似然函数求出参数。

这样的话，我们先单独看一个 p(ϵ(i)|θ) ：

p (ϵ (i) | θ) = 1 2 π - - \sqrt σ e (- ( ϵ ( i ) ) 2 2 σ 2) = 1 2 π - - \sqrt σ e (- ( h θ ( x ( i ) ) - y ( i ) ) 2 2 σ 2)

那么此时似然函数：

L (θ) = \prod i = 1 n p (ϵ (i) | θ) = \prod i = 1 n 1 2 π - - \sqrt σ e (- ( ϵ ( i ) ) 2 2 σ 2) = \prod i = 1 n 1 2 π - - \sqrt σ e (- ( h θ ( x ( i ) ) - y ( i ) ) 2 2 σ 2)

此时我们对 L(θ) 取 log （这里假设 ln 与 log 等价）：

l o g (L (θ)) = n l o g 1 2 π - - \sqrt σ - 1 σ 2 (1 2 \sum i = 1 n (h θ (x (i)) - y (i)) 2)

也就是说，最大化似然函数，相当于最小化 12∑ni=1(hθ(x(i))−y(i))2 也即 J(θ).

总结：

在估计误差满足独立同分布，和高斯分布两个假设的时候，误差估计的最大似然就是用最小二乘法来最小化误差

理解上来说，将误差的分布做类比，是比较方便的一个思路。

阅读全文

1 0