进阶优化算法

来源：互联网发布：手机测量海拔高度软件编辑：程序博客网时间：2024/05/20 21:43

本文主要讨论在优化模型求解中用到的高级优化算法，这些算法基于常见的优化算法思想，采用一些非常巧妙的技巧，而使得算法到达更快的收敛等特点。这些高级优化算法也只限定于特定的模型求解，下面将对其进行简单总结。

1. Surrogate方法

首先我们考虑一些简单的优化问题minx12∥x−x0∥22+λ∥x∥1，事实上我们只需要对x向量中的每一个元素进行展开求解即可，它的优化解的表达式如下：

x * = S λ (x 0) = {0 ∥ x 0 ∥ 2 \leq λ x 0 - s i g n (x 0) * λ o t h e r w i s e

其中，

sign为符号函数。
下面我们考虑

ℓ2范数正则化约束，问题形式化为

minx12∥x−x0∥22+λ∥x∥2，同理我们只需要对

x向量中的每一个元素进行展开求解即可，它的优化解的表达式如下：

x * = [(1 - λ ∥ x 0 ∥ 2) * x 0] + = {0 ∥ x 0 ∥ 2 \leq λ (1 - λ ∥ x 0 ∥ 2) * x 0 o t h e r w i s e

考虑

ℓ∞范数正则化约束，问题形式化为

minx12∥x−x0∥22+λ∥x∥∞。由于

ℓ∞的共轭为

ℓ1barrior函数，因此上述问题的对偶形式为

m i n y 1 2 ∥ y - x 0 ∥ 22 s . t . ∥ y ∥ 1 < λ

其中

y=x0−x。通过转换的形式则通过

ℓ1约束问题很好求解。下面介绍另一种求解

ℓ∞范数正则化约束问题。首先判断

∥x0∥1的取值，如果小于等于

λ，则

x=0；否则，我们对

x0向量中每一个元素取绝对值，并安降序排列，记为

{v1,⋯,vj,⋯,vM}。取

j^=max{j:λ−∑jr=1(vr−vj)>0}。则最后

x的优化解形式如下：

x * i = s i g n (x 0, i) m i n (v i, (\sum r = 1 j^v r - λ) / j^) i = 1, \dots, M

下面我们继续考虑矩阵

ℓ∗核范数正则化约束问题，该问题可以形式化为

minA12∥X−A∥2F+∥A∥∗，这类问题的求解一般采用矩阵的SVD分解，

X=USVT；再使用Surrogate策略。一般优化解的形式如下：

A = U * S^* V T

其中

S^的表达式如下：

S^= T (S) = ⎧ ⎩ ⎨ S - ϵ S > ϵ S + ϵ S < - ϵ 0 o t h e r w i s e

2. Accelerated Gradient Algorithm

我们考虑一个常见的优化问题，形式化为minWf(W)+λψ(W)，函数的具体形式视情况而定。比如在机器学习领域，f(W)一般为总体训练样本的损失函数，f(W)=1N∑nℓ(χn,W)，χn={xn,yn}为训练样本，而ℓ为具体的损失函数，比如平方损失，logistic 损失，hinge损失等；ψ(W)一般为待训练参数W的正则化约束，这里我们考虑混合约束ψ(W)=∥W∥1,∞或ψ(W)=∥W∥1,2。该类混合约束在机器学习模型构建中经常用到，比如多任务建模中(f(W)则为总体任务下总体训练样本的损失，W={wk}k，wk为第k个任务下待训练权重)，所以有必要讨论其优化解。
一般而言，上式问题的求解可以采用子梯度下降法优化W，但遗憾的是收敛速度较慢。因此在优化目标问题中，对f(W)在W=Wt处进行二阶泰勒近似展开，优化目标函数为：

m i n W f (W t) + < W - W t, \nabla f (W t) > + L 2 ∥ W - W t ∥ 2 F + λ ψ (W)

其中

<A,B>=Tr(ATB)。下面对上式进行重新整理得：

m i n W 1 2 ∥ W - (W t - 1 L \nabla f (W t)) ∥ 2 F + λ L ∥ W ∥ 1, \infty

其中

∥W∥1,∞=∑j∥Wj∥∞，即为每一行元素绝对值的最大值累加。为了简化上式，我们令

V=Wt−1L∇f(Wt)和

λ^=λL，则

m i n W 1 2 ∥ W - V ∥ 2 F + λ^∥ W ∥ 1, \infty

同样，上式问题可以各个维度上的子问题求解，下面我们仅考虑矩阵

W,V的第

i行，记着

w,v。那么子问题简化为：

m i n w 1 2 ∥ w - v ∥ 22 + λ^∥ w ∥ \infty

如果原始问题为

ψ(W)=∥W∥1,2混合范数约束，则此时的优化子问题为：

m i n w 1 2 ∥ w - v ∥ 22 + λ^∥ w ∥ 2

因此上述问题求解。可知，该方法对优化目标函数采用泰勒近似展开达到对原问题的简化，从而加快算法的收敛速度。

阅读全文

0 0