迭代求解最优化问题——最小二乘问题、高斯牛顿法

来源：互联网发布：mac word转pdf错误编辑：程序博客网时间：2024/04/29 17:40

最小二乘问题

最小二乘问题是应用最广泛的优化问题，它的一般形式如下：

min x | | r (x) | | 2

该问题的损失函数为

S(x)=||r(x)||2。其中r(x)为残差函数，一般表示预测值与实际值的差别。一个最简单的最小二乘问题就是线性回归问题，对于这个问题的求解可以用上一节所说的梯度下降法，这也是机器学习领域常用的一种做法。

线性最小二乘问题是最简单的最小二乘问题，它的一般形式如下：

min x | | A x - b | | 2

线性最小二乘问题的求解很容易，
令

h (x) = | | A x - b | | 2 = (A x - b) T (A x - b)

对它求导并且令导数为零得到

ATAx−ATb=0，这称为最小二乘问题的标准方程（normal equation）。

解得

x = (A T A) - 1 A T b

熟悉线性回归模型的话就可以发现，这就是线性回归模型参数的解析解。

上面的问题中有r(x)=Ax−b。r(x)是一个线性函数。对它求导得到Jacobian矩阵Jr=A。于是有x=(JTrJr)−1JTrb。

而许多最小二乘问题的残差函数并不是线性的，此类问题称为非线性优化问题。

对于非线性优化的问题当然可以结合具体的残差函数进行分析，但是对于一般的函数，我们也可以通过将非线性函数进行线性化的方式进行迭代求解。具体来说，由泰勒展开

r (x 0 + Δ) = r (x 0) + J r Δ

求解

min Δ | | r (x 0 + Δ) | | 2 = min Δ | | r (x 0) + J r Δ | | 2

由上面线性最小二乘问题的推导可以得出此问题的解为Δ=−(JTrJr)−1JTrr(x0)。

于是通过不断迭代x(k+1)=x(k)+αΔ，我们可以对非线性最小二乘问题的解进行逼近

上述使用迭代求解非线性最小二乘问题的方法称为高斯牛顿法。它是牛顿法求解非线性最小二乘问题时的一个特例。
事实上，对损失函数：

S (β) = | | r (β) | | 2

使用牛顿法有

β (s + 1) = β (s) - H - 1 g

H为S对

β的二次导，g为S对

β的梯度。

显然g=2JTrr, H=2(JTrJr+HTrr)，其中Jr为r对β的Jacobian矩阵，Hr为r对β的Hessian矩阵。

在此我们假设在非线性最小二乘问题中残差函数的二次偏导的作用是不明显的，于是我们可以将这一项省略，于是得到

H \approx 2 J T r J r

带入牛顿法的计算公式，我们有

β (s + 1) = β (s) + α Δ, Δ = - (J T r J r) - 1 J T r r (β (s))

由此，我们就从另一个角度推导出了高斯牛顿法。

阅读全文

0 0