最大似然估计和最小二乘法怎么理解

来源:互联网 发布:windows rs1 编辑:程序博客网 时间:2024/06/03 14:38
从概率论的角度:
  1. Least Square 的解析解可以用 Gaussian 分布以及最大似然估计求得
  2. Ridge 回归可以用 Gaussian 分布和最大后验估计解释
  3. LASSO 回归可以用 Laplace 分布和最大后验估计解释
-------------------------------------------------------------------
下面贴一下我以前的推导给大家参考,相信会有启发。如有错误还望指正 -_-
注意:
  1. 假设你已经懂得:高斯分布、拉普拉斯分布、最大似然估计,最大后验估计(MAP)。
  2. 按照李航博士的观点,机器学习三要素为:模型策略算法。一种模型可以有多种求解策略,每一种求解策略可能最终又有多种计算方法。以下只讲模型策略,不讲算法。(具体怎么算,convex or non-convex, 程序怎么写,那是数值分析问题)
-------------------------------------------------------------------


首先假设线性回归模型具有如下形式:
f(\mathbf x) = \sum_{j=1}^{d} x_j w_j + \epsilon = \mathbf x \mathbf w^\intercal + \epsilon
其中\mathbf x \in \mathbb R^{1 \times d}\mathbf w \in \mathbb R^{1 \times d}误差\epsilon \in \mathbb R
当前已知\mathbf X=(\mathbf x_1 \cdots \mathbf x_n)^\intercal \in \mathbb R^{n \times d}\mathbf y \in \mathbb R^{n \times 1},怎样求\mathbf w呢?

策略1. 假设\epsilon_i \sim \mathcal{N}(0, \sigma^2),也就是说\mathbf y_i \sim \mathcal{N}(\mathbf x_i \mathbf w^\intercal, \sigma^2),那么用最大似然估计推导:
\begin{align*}            \text{arg\,max}_{\mathbf w} L(\mathbf w)                 & = \ln {\prod_{i=1}^n \frac{1}{\sigma \sqrt{2\pi}}                 \exp(-\frac{1}{2}(\frac{\mathbf y_i - \mathbf x_i \mathbf w^\intercal}{\sigma})^2})\\                & = - \frac{1}{2\sigma^2} \sum_{i=1}^n(\mathbf y_i - \mathbf x_i \mathbf w^\intercal)^2                - n \ln \sigma \sqrt{2\pi}        \end{align*}
\text{arg\,min}_{\mathbf w} f(\mathbf w) = \sum_{i=1}^n(\mathbf y_i - \mathbf x_i \mathbf w^\intercal)^2= {\left\lVert{\mathbf y - \mathbf X \mathbf w^\intercal}\right\rVert}_2^2
这不就是最小二乘么。


策略2. 假设\epsilon_i \sim \mathcal{N}(0, \sigma^2)\mathbf w_i \sim \mathcal{N}(0, \tau^2),那么用最大后验估计推导:
\begin{align*}\text{arg\,max}_{\mathbf w} L(\mathbf w)             & = \ln \prod_{i=1}^n \frac{1}{\sigma \sqrt{2\pi}}                     \exp(-\frac{1}{2}(\frac{\mathbf y_i - \mathbf x_i \mathbf w^\intercal}{\sigma})^2) \cdot                    \prod_{j=1}^d \frac{1}{\tau \sqrt{2\pi}}                    \exp(-\frac{1}{2}(\frac{\mathbf w_j}{\tau})^2)\\            & = - \frac{1}{2\sigma^2} \sum_{i=1}^n(\mathbf y_i - \mathbf x_i \mathbf w^\intercal)^2                - \frac{1}{2\tau^2} \sum_{j=1}^d \mathbf w_j^2                - n \ln \sigma \sqrt{2\pi}                - d \ln \tau \sqrt{2\pi}        \end{align*}
\begin{align*}            \text{arg\,min}_{\mathbf w} f(\mathbf w) &=                 \sum_{i=1}^n (\mathbf y_i - \mathbf x_i \mathbf w^\intercal)^2 +                \lambda \sum_{j=1}^d \mathbf w_j^2 \\                &= {\left\lVert\mathbf y - \mathbf X \mathbf w^\intercal\right\rVert}_2^2 +                   \lambda {\left\lVert\mathbf w\right\rVert}_2^2        \end{align*}
这不就是 Ridge 回归么?

策略3. 假设\epsilon_i \sim \mathcal{N}(0, \sigma^2)\mathbf w_i \sim \text{Laplace}(0, b),同样用最大后验估计推导:
\begin{align*}          \text{arg\,max}_{\mathbf w} L(\mathbf w)  & = \ln \prod_{i=1}^n \frac{1}{\sigma \sqrt{2\pi}}                    \exp(-\frac{1}{2} (\frac{\mathbf y_i - \mathbf x_i \mathbf w^\intercal}{\sigma})^2) \cdot                    \prod_{j=1}^d \frac{1}{2b}                    \exp(-\frac{|\mathbf w_j|}{b}) \\            & = - \frac{1}{2\sigma^2} \sum_{i=1}^n(\mathbf y_i - \mathbf x_i \mathbf w^\intercal)^2                - \frac{1}{2\tau^2} \sum_{j=1}^d |\mathbf w_j|                - n \ln \sigma \sqrt{2\pi}                - d \ln \tau \sqrt{2\pi}        \end{align*}
\begin{align*}            \text{arg\,min}_{\mathbf w} f(\mathbf w) &=                 \sum_{i=1}^n (\mathbf y_i - \mathbf x_i \mathbf w^\intercal)^2 +                \lambda \sum_{j=1}^d |\mathbf w_j| \\                &= {\left\lVert\mathbf y - \mathbf X \mathbf w^\intercal\right\rVert}_2^2 +                   \lambda {\left\lVert\mathbf w\right\rVert}_1        \end{align*}
这不就是 LASSO 么?

不知大家看懂没,简直是完美统一啊。

作业:)

  1. 策略1和2最终的目标函数都是常规的极值问题,试求出解析解。
  2. 有一种常见的回归通篇没有提到,也可以纳入上述体系,试找出策略4并推导之。

参考文献:

[1] Machine Learning

[2] The Elements of Statistical Learning



作者:bsdelf
链接:http://www.zhihu.com/question/20447622/answer/25186207
来源:知乎
著作权归作者所有,转载请联系作者获得授权。

0 0