换个角度看回归——极大似然估计

来源：互联网发布：网络开发公司怎么起步编辑：程序博客网时间：2024/05/21 22:58

极大似然估计与回归

极大似然估计

先简单说下似然(likelihood)和概率(probability)的区别，两者都是对可能性的表示。概率是在给定了一定参数值后，表示了一件事物发生的可能性；而似然则反其道而行之，是在给定了一系列结果后，表示了某一组参数值的可能性。那么最大似然估计的思想，就是在给定了一组结果后哪一组参数的可能性最大；反过来说，就是使用这样一组参数，出现给定结果的可能性最大。即条件概率 P(X|Θ)=L(Θ|X)。

根据机器学习的目的，我们就是在找寻一组参数，这组参数可以让机器取代人工进行分类、拟合等功能，从定义的角度来看，极大似然估计似乎正是我们所需要的。下面我们就用极大似然估计的方法来重新学习下线性回归和逻辑回归（LR）。

线性回归

最小二乘法

想必大家已经对线性回归足够的了解，再简单回顾一下，给定一组样本 X 和结果 Y，希望得到一组参数 Θ 从而能够尽可能使得 Yi 和 XTiΘ 相近。假设 Yi^=XTiΘ，那么对于样本 Xi 来说，其估计的误差就是 |Yi−Yi^|。那么我们想要得到一组最好的参数 Θ，就代表我们要尽可能缩小所有样本的误差之和，这就是最小二乘法的本质。

根据上面的回顾，我们很容易得到常用的代价函数：

J(Θ)=12m∑i=0m(Yi−Yi^)2

而我们接下来要做的就是最小化这个代价函数从而能够找到一组参数 Θ 使得总误差最小。

极大似然法

那么我们现在就从极大似然估计的角度来看一下线性回归的本质。现在我们假设 Yi=XTiΘ+ϵi=Yi^+ϵi。这个式子中 ϵ 代表着误差。且 ϵi∼N(0,σ2)。这个条件也就解释了为什么线性回归是 高斯模型 的。

现在我们来看一下我们要求的 P(Yi|Xi,Θ)，这个先验概率表达的是什么呢？就是给定了一组样本 Xi，然后我们采用参数集 Θ 进行加权估计最终得到正确答案 Yi 的概率。那么这个时候的误差是什么呢？给定了 Xi 和 Θ，那么也就说明误差 ϵi=Yi−Yi^。

所以 P(Yi|Xi,Θ)=P(ϵi=Yi−XTiΘ)。根据高斯分布的公式，我们可以得到一下结论：

P(Yi|Xi,Θ)=12π√σe−(Yi−XTiΘ)22σ2

因为 Xi 是相互独立的，所以 :

P(Y|X,Θ)=∏i=1mP(Yi|Xi,Θ)=∏i=1mP(ϵi=Yi−XTiΘ)

同时取对数后，再根据对数公式进行化简得到：

logP(Y|X,Θ)=m∗log(12π√σ)−12σ2∑i=1m(Yi−XTiΘ)2

因为第一项是常数，所以想要最大化极大似然函数，就是要 ∑i=1m(Yi−XTiΘ)2 最小化。现在回头看基于最小二乘法的代价函数，最终的结果完全殊途同归的。

我们继续往下看，现在我们令 L(Θ)=12σ2∑i=1m(Yi−XTiΘ)2，因为 logP(Y|X,Θ) 的第一项是与 Θ 无关的，所以我们不考虑。现在想求 L(Θ) 的最小值，怎么做呢？从高中我们就已经知道了，对于凸函数，我们可以求导！那么我们求 ∂L(Θ)∂Θ 并令导数为 0 则可。根据矩阵的变换规则：

∂L(Θ)∂Θ=∂∂β12σ2Σ(Yi−XTiΘ)2
=∂∂β(Y−XTΘ)∗1σ2(Y−XTΘ)
=1σ2(XY−XXTΘ)
=0

结果得到了：Θ=(XXT)−1XY。这原来就是我们曾经学过的 正规方程 啊。

逻辑回归

逻辑回归采用的 hΘ(X)=g(XTΘ)=11+e−XTΘ。如果我们像线性回归一样利用最小二乘法做代价函数，我们会发现最终得到的函数并不是一个凸函数，我们常用的梯度下降法就无法使用。

那么我们就来重新理解下这个hΘ(X)，他代表的是样本 X 在使用权重 Θ 的时候结果为 1 的概率。即 P(Yi=1|Xi,Θ)=hΘ(X)，那么我们可以得到 P(Yi=0|Xi,Θ)=1−hΘ(X)，这告诉我们逻辑回归的模型实际上是 二项分布 或者叫 伯努利分布 。

根据伯努利分布的公式我们得：

P(Yi|Xi,Θ)=(hΘ(Xi))Yi(1−hΘ(Xi))1−Yi

同样，因为样本之间是独立的，

P(Y|X,Θ)=∏1mP(Yi|Xi,Θ)

同样两边去对数，则得到了我们所熟悉的：

P(Y|X,Θ)=∑1mYilog(hΘ(Xi))+(1−Yi)log(1−hΘ(Xi))

想必大家都遇到过逻辑回归的 loss function，损失函数的定义为

c o s t (h Θ (X i), Y i) = {- l o g (h Θ (X i)) - l o g (1 - h Θ (X i)) Y i = 1 Y i = 0

通过上面的推导，现在明白这个函数怎么得到了吧，就是为了最大化极大似然函数而将两个对数项取反而已。

总结

本篇从极大似然估计的角度来重新回顾逻辑回归和线性回归，更好的理解了为什么线性回归是基于高斯分布模型而逻辑回归是基于伯努利分布模型，通过统计学角度来解释代价函数和损失函数，更通过进一步求导推出了正规方程的由来。希望能够多一分理解。

阅读全文

0 0