凸优化笔记

来源：互联网发布：dnf破极兵刃数据2017 编辑：程序博客网时间：2024/06/10 02:14

基本概念

凸优化问题具有如下形式：

m i n f 0 (x) s u b j e c t t o f i (x) \leq b i, i = 1, . . ., m

其中，函数

f0,...,fm:Rn→R为凸函数，即对任意

x,y∈Rn,α,β∈R且

α+β=1,α≥0,β≥0这些函数满足

f i (α x + β y) \leq α f i (x) + β f i (y)

凸优化的常见的特殊形式有：最小二乘问题和线性规划问题。

最小二乘问题是这样一类优化问题，它没有约束条件（即m=0）,目标函数是若干项的平方和，每一项具有形式xTia−yi,具体形式如下：

m i n f 0 (x) = | | X a - Y | | 22 = \sum i = 1 i = K (x T i - y i) 2

其中，

X∈Rk∗n(k≥n),xTi是矩阵

X的行向量，向量

a∈Rn是优化变量。
在多输入多输出中，

yi=a1ix1+a2ix2+...+anixn或

y T = x T A

其中，

yT=[y1,...,yp],xT=[x1,...,xp]T

A = ⎡ ⎣ ⎢ a 11 . . . a p 1 . . . . . . . . . . . . a 1 n . . . a p n ⎤ ⎦ ⎥

设输入输出的第

i次观测值为

xT(i),yT(i),i=1,...,k.若记

Y=[y(1),...,y(k)]T,A=[a1,...,an]T

X = ⎡ ⎣ ⎢ x 1 (1) . . . x 1 (k) . . . . . . . . . . . . x p (1) . . . x p (k) ⎤ ⎦ ⎥

X A = Y

X是k*p的矩阵，Y是k*p矩阵，当上述方程无解时，问题就转化为求矛盾方程组的最小二乘解，即求A使下列非负定矩阵达到最小

J（A）=(Y−XA）T（Y−XA)=min

凸优化算法

无约束优化问题

优化的目的是求出使目标函数F(x)最小化的x的值，所有将要讨论的算法为迭代的。
首先，给定一个初始猜测值X0,然后按照等式Xk+1=Xk+αkPk逐步修改猜测，根据搜索方向Pk的不同可以得到不同的算法，其中大于零的学习率αk也有不同的确定方法。

最速下降算法

X k + 1 = X k - α k g k

这里，

gk=∇F(x)|X=Xk

稳定学习速度(αk=α,常数)

α < 2 λ m a x

这里

{λ1,λ2,...,λn}为赫森矩阵

A的特征值
沿直线Xk+1=Xk+αkPk的最小化的学习速度

α k = - g T k P k P T k A P k (用 于 二 次 函 数)

牛顿法

X k + 1 = X k - A - 1 k g k

其中，

A k = \nabla 2 F (X) | X = X k

共轭梯度算法

\nabla X k = α k P k

沿直线

Xk+1=Xk+αkPk的最小化确定学习速度

αk,

P 0 = - g 0 P k = - g k + β k P k - 1 β k = δ g T k - 1 g k δ g T k - 1 P k - 1

等式约束优化

不等式约束优化

不等式优化的问题形式

m i n w f (w) s . t . g i (w) \leq 0, i = 1, . . ., k h i (w) = 0, i = 1, . . ., l

1.引入拉格朗日函数

L (w . α, β) = f (w) + \sum α i g i (w) + \sum β i h i (w)

上式与原优化问题不等价，下面步骤2解决这个问题。
2.构造与原问题等价的极小极大拉格朗日函数

θ p (w) = m a x α, β : α \geq 0 L (w, α, β) = ⎧ ⎩ ⎨ f (w), \infty, if w satisfies primal constraints otherwise.

这样原问题中的

min f(w)可以转化为求

m i n w θ p (w) = m i n w m a x α, β : α i \geq 0 L (w, α, β)

如果直接求解上述问题，则先是求

max需要考虑两个参数

α,β且

αi≥0为不等式条件，不易求解，则引进上式的对偶式。
3.拉格朗日对偶式

m i n w m a x α, β : α i \geq 0 L (w, α, β) = m a x α, β : α i \geq 0 m i n w L (w, α, β)

将原问题转换为其对偶问题，只是交换了

min和

max的顺序，而一般交换顺序后的结果为

max min(x)≤min max(x).而此处两者是相等的，因为

w∗,α∗,β∗满足KKT条件，下面具体说明。
假设函数

f(w)和

gi(w)是凸函数，

hi(w)是放射函数，并且不等式约束

gi(w)是严格可行的，则

w∗,α∗,β∗是原始问题和对偶问题的解的充分必要条件是，

w∗,α∗,β∗满足KKT条件：

\partial w L (w *, α *, β *) = 0 \partial α L (w *, α *, β *) = 0 \partial β L (w *, α *, β *) = 0 α * i g i (w *) = 0, i = 1, 2, . . ., k g i (w *) \leq 0, i = 1, 2, . . ., k α i \geq 0, i = 1, 2, . . ., k h j (w *) = 0, j = 1, 2, . . ., l

其中，

α∗igi(w∗)=0,i=1,2,...,k为对偶互补条件,若

α∗i>0,则

gi(w∗)=0.

参考文献

1.李航，统计学习方法
2.http://www.cnblogs.com/liqizhou/archive/2012/05/11/2495689.html
3.

0 0