最大似然估计和最小二乘法

来源:互联网 发布:wp10记录仪软件 编辑:程序博客网 时间:2024/06/03 23:39




最大似然估计:现在已经拿到了很多个样本(你的数据集中所有因变量),这些样本值已经实现,最大似然估计就是去找到那个(组)参数估计值,使得前面已经实现的样本值发生概率最大。因为你手头上的样本已经实现了,其发生概率最大才符合逻辑。这时是求样本所有观测的联合概率最大化,是个连乘积,只要取对数,就变成了线性加总。此时通过对参数求导数,并令一阶导数为零,就可以通过解方程(组),得到最大似然估计值。
最小二乘:找到一个(组)估计值,使得实际值与估计值的距离最小。本来用两者差的绝对值汇总并使之最小是最理想的,但绝对值在数学上求最小值比较麻烦,因而替代做法是,找一个(组)估计值,使得实际值与估计值之差的平方加总之后的值最小,称为最小二乘。“二乘”的英文为least square,其实英文的字面意思是“平方最小”。这时,将这个差的平方的和式对参数求导数,并取一阶导数为零,就是OLSE。



说的通俗一点啊,最大似然估计,就是利用已知的样本结果反推最有可能(最大概率)导致这样结果的参数值。
例如:一个麻袋里有白球与黑球,但是我不知道它们之间的比例,那我就有放回的抽取10次,结果我发现我抽到了8次黑球2次白球,我要求最有可能的黑白球之间的比例时,就采取最大似然估计法: 我假设我抽到黑球的概率为p,那得出8次黑球2次白球这个结果的概率为:
P(黑=8)=p^8*(1-p)^2,现在我想要得出p是多少啊,很简单,使得P(黑=8)最大的p就是我要求的结果,接下来求导的的过程就是求极值的过程啦。
可能你会有疑问,为什么要ln一下呢,这是因为ln把乘法变成加法了,且不会改变极值的位置(单调性保持一致嘛)这样求导会方便很多~

同样,这样一道题:设总体X 的概率密度为
已知 X1,X2..Xn是样本观测值,求θ的极大似然估计

这也一样啊,要得到 X1,X2..Xn这样一组样本观测值的概率是
P{x1=X1,x2=X2,...xn=Xn}=f(X1,θ)f(X2,θ)…f(Xn,θ)
然后我们就求使得P最大的θ就好啦,一样是求极值的过程,不再赘述。



最小二乘法可以从Cost/Loss function角度去想,这是统计(机器)学习里面一个重要概念,一般建立模型就是让loss function最小,而最小二乘法可以认为是 loss function = (y_hat -y )^2的一个特例,类似的想各位说的还可以用各种距离度量来作为loss function而不仅仅是欧氏距离。所以loss function可以说是一种更一般化的说法。

最大似然估计是从概率角度来想这个问题,直观理解,似然函数在给定参数的条件下就是观测到一组数据realization的概率(或者概率密度)。最大似然函数的思想就是什么样的参数才能使我们观测到目前这组数据的概率是最大的。

类似的从概率角度想的估计量还有矩估计(moment estimation)。就是通过一阶矩 二阶矩等列方程,来反解出参数。

各位有人提到了正态分布。最大似然估计和最小二乘法还有一大区别就是,最大似然估计是需要有分布假设的,属于参数统计,如果连分布函数都不知道,又怎么能列出似然函数呢? 而最小二乘法则没有这个假设。 二者的相同之处是都把估计问题变成了最优化问题。但是最小二乘法是一个凸优化问题,最大似然估计不一定是。



-------------------------------------------------------------------------------------------------------------------------------------------------------------



我尽量不写数学,用通俗语言说一说OLS(最小二乘) 和MLE(最大似然) 的本质。

1. OLS其实就是 linear projection(线性投影), 是Hilbert 空间中的被解释变量在一组解释变量上的线性投影。(这句话你可能看不懂,没事,先看下边的。)

<img src="https://pic2.zhimg.com/50/v2-e8947d88074841798103303faaa81af9_hd.jpg" data-rawwidth="289" data-rawheight="174" class="content_image" width="289">

如上图,我们有两个向量,v, u, 那么p 就是v 在u 上的线性投影,记作: p= L(v|u) = b*u

b 我们称作“系数”。因为是在u 上投影,所以 p = b* u

当然,为了做出来这个投影,我们必须定义“内积”(点乘,下面用x.y 表示x 和y的内积)的概念。这里,如果p 是 v 在u 上的投影,那么必须满足下面两个条件:

1) u . (v-p) = 0 (垂直条件,也就是说,u 和 v-p “垂直”)

2)p = b*u (p必须在u 张成的子空间中)

好了,那么我们现在到Hilbert 空间,这个Hilbert空间其实就是很多很多随机变量的集合,并且定义了内积的概念。

怎么给随机变量定义内积?如果x, y 是两个(多维)随机变量 (列向量),那么定义x.y = E(xy') (y' 表示y的转置)。此时,如果有一个多维随机变量x,和一个随机变量y,我们把y 投影到 x上,就会有L(y|x) = x b,这个b 就是我们在OLS中想要求得的系数。

怎么求这个系数?由垂直条件可知: x.(y - L(y|x)) = x.(y - x b) =0 所以:b = (x.x)^-1 x.y = (Exx')^-1 E(xy)。

最后,投影是如何跟“最小二乘”扯上关系?最小二乘,其实就是最小方差。在最上面的图中,投影变量p (拟合值)是在u (解释变量)张成的子空间中,距离v(被解释变量)最“近”的那个向量。这个“近”(距离的概念),是需要用内积来定义。而我说的 x.y = Exy' 这种定义内积的方法,正好能推导出来用“方差”来定义距离的方法。所以投影得到了,最小二乘也实现了。


2. MLE可以看作一种特殊情况下的Bayesian 估计,具体来说,就是在prior 是 diffuse (无知的)情况下,让posterior 分布取得极大值的系数值。

我们有一些理论模型,记作 "model",这个model 是什么,在很多实践中,就是一个模型中关键系数的值是什么这样的问题(不同的系数的值,我们称作不同的model) 。我们现在又观测到一组数据,记作"observation"。那么问题来了,给定一个model (一组关键系数的值),必然会有关于observation 的分布密度函数,所以我们知道P(observation|model) (给定一个model,observation的条件分布)的函数形式。

我们真正关心的,却是 P(model|observation) 的函数形式,也就是给定了当前的observation (observation是实际观测到的,是确定下来的),到底不同的model的概率是什么。当然,一个很贪心的做法,就是找到那个能把P(model|observation) 取到最大值的model (给定某个观测,最有可能的model)。

现在根据贝耶斯原理,

P(model|observation) = [ P(observation|model) * P(model) ]/ P(observation)

其中P(observation) 不太重要,因为我们想知道不同model 是如何影响 P(model|observation)的,或者是贪心的求P(model|observation)的最大值。而P(observation)已经固定下来了,不随model改变,所以我们无视他。

我们如果知道 P(model)(所谓的Prior) 的函数形式,那么就没有什么问题了。此时的P(model|observation)是一个关于model 的函数。报告这个P(model|observation)作为model的函数的函数形式,就叫贝耶斯估计。可是,这需要我们知道P(model)。实际中我们不知道这个玩意,所以一般我们猜一个。

我们如果承认不知道P(model),认为我们对他是无知的话,那么P(model) = 常数 for all model,此时求P(model|observation) 最大值,也就等价于求P(observation|model) 的最大值,这就叫做MLE。


3。二者区别。从上面可见,OLS 是把所有变量扔到线性空间中,求线性投影的系数:它并不需要什么信息。而MLE 是需要我们知道一个完整的理论模型 (否则P(observation|model) 根本就不知道是什么)。由于一般大家接触的都是线性模型,所以二者区别不大。当模型无法变成线性状态时(比如censored data, logit/probit 之类的),此时OLS此时报告的仍然是线性投影,我们却没有用到这些“非线性”的信息,因此MLE的选项就好很多。

不论任何时候,OLS报告的都是线性投影(准确的说,是对线性投影的“估计”值),都是 "best linear predictor"。当你加上了一些假设,(比如 在 y = x b + u 这样的理论模型中,你假设了 E(xu) = 0 这样的经典计量经济学假设),此时OLS报告的还是线性投影,只不过,这个线性投影正好等于模型中的"b"。

如果在模型 y = x b + u 中,E(xu) != 0,不满足经典计量假设。那么此时你用上了OLS,得到的是y = x a + e 这样的模型,你是知道了a,而且很容易知道E(xe) = E(x(y-x a)) = x. (y-x a) = 0 (线性投影的垂直条件)。但是这个a 却不是你一开始设定模型时想要知道的b。

---------------------------------------------------------------------------------------------------------------------------------------------------------------------







首先明确,
似然估计的目的:即 通过 样本 确定某一分布中的参数。

原理: 通过若干次试验得到 某个参数值 能够使 样本出现的概率为最大,则称为最大似然估计。

最小二乘法的
目的: 通过已有的数据来预测未知的数据。一般做一条 多元一次直线方程。
原理:假设在一个 2维坐标上,有很多个点,我们划一条 直线,直线满足:坐标上所有的点到直线上的距离和最小。(注意,这个距离不是 过点在该直线上做垂线,而是 过该点 做一条与Y轴平行的线,形成的距离)

最后补充一点,在很多的数据分析中,人们往往更加愿意 用“距离”来描述数与数之间的关系,还有什么马氏距离法、广义平方距离法等等



原创粉丝点击