约束最优化方法之最优性条件

来源:互联网 发布:数控铣床软件与编程 编辑:程序博客网 时间:2024/05/21 17:44

    • 等式约束最优化条件
    • 不等式约束最优化条件
      • 几何最优性条件
      • Fritz John条件
      • Kuhn Tucker条件
    • 一般性约束最优性条件

前面几篇博客主要讲了无约束最优化问题的一些求解方法。从这一篇博客开始将开始讲有约束的最优化方法。首先说明一下有约束最优化问题的一般形式

mins.t.f(x)s(x)0h(x)=0(1)
。其中,f:RnR1s:RnRmh:RnRl。这个问题的意思是,在容许集D={x|s(x)0h(x)=0xRn}中寻找一点x,是的对于任意xD,都有
f(x)f(x)
从而x就是公式(1)的极小点。

在上面介绍了有约束最优化问题的一般形式后,其实我们可以进一步将其分解为等式约束最优化问题、不等式约束最优化问题和一般最优化问题。其中一般最优化问题的如公式(1)所示。等式约束最优化问题的一般形式为mins.t.f(x)h(x)=0}(2)其中f:RnR1h:RnRl。即等式约束最优化问题中的约束只有等式。
不等式约束最优化问题的一般形式为

mins.t.f(x)s(x)0}(3)
其中f:RnR1s:RnRm,即不等式约束最优化问题的中的约束只有不等式。
下面讲等式约束最优化条件以及不等式约束最优化条件。

等式约束最优化条件

等式约束最优化条件的一般形式如公式(2)所示,我们将等式约束的最优化问题中的等式约束拆分为

hj(x)=0j=1,2,...,l
其中hi:RnR1。这一问题的求解已经在微积分中通过Lagrange乘子法在理论上得到解决。

定理1:(Lagrange定理重述) 假设
(i)x是约束问题(2)的局部最优解
(ii)fh1h2...hl:RnR1x的某一个邻域内连续可微
(iii)h1(x)h2(x)...hl(x)线性无关

那么,存在实数λ1λ2...λl使得

f(x)j=1lλjhj(x)=0(4)

公式(4)是等式约束问题(2)的最优性一阶必要条件。

首先我们应该知道的是,对于约束最优化问题的局部极小点x,不一定有f(x)=0,即f(x)=0不再是约束最优化问题的必要条件。而定理1所指出的是,在局部最优点x处的导数f(x)与所有的约束曲面hj(x)=0的交集正交,因为按照定理1,我们知道f(x)=j=1lhj(x),即f(x)在由约束曲面的法向量所张成的空间中。

通过这个定理,我们能够将等式约束问题转换为无约束问题,定义一个n+l元函数

L(x,λ1,λ2,...,λl)=f(x)+j+1lλjhj(x)(5)
我们将公式(5)称为Lagrange函数,其中λ1,λ2,...,λl称为Lagrange乘子

Lagrange函数的梯度

L=[xLλL]
其中
xL=f(x)j=1lλjxhj(x)
λL=[h1(x),h2(x),...,hl(x)]T

由此我们知道
min L(x,λ1,λ2,...,λl)(6)
的必要条件是
L(x,λ1,λ2,...,λl)=0
这恰好给出了等式约束问题(2)的最优性条件以及等式约束。

下面给出等式约束最优化问题的充分条件。

定理2: 在等式约束问题(2)中,假设:
(i)f,h1,h2,...,hl:RnR1是二次连续可微函数
(ii)存在xRnλRl,使得Lagrange函数的梯度为0,即

L(x,λ1,λ2,...,λl)=0

(iii)对于满足条件
vThj(x)=0j=1,2,...,l
的任意非零向量vRn,都有
vT2kL(x,λ)v>0
那么,x是等式约束最优化问题(2)的严格局部极小点。

定理2的几何意义是在Lagrange函数的驻点[xλ]T处,如果Lagrange函数关于x的Hesse矩阵在l个约束超平面的切平面的交集上正定,那么x就是严格局部极小点。

不等式约束最优化条件

对于不等式约束的一般形式(3)我们换一种方法表示。首先我们用D表示容许集,

D={x|si(x)0,i=1,2,...,m}
那么不等式约束的一般形式(3)又可以写为
mins.t.f(x)xD}(7)

定义1:对于不等式约束最优化问题(3)。设x~D,若x~是的某个不等式的约束si(x~)=0,则该不等式约束si(x)0称为是关于容许点x~起作用约束;否则,若si(x)>0,则该不等式约束称为是关于容许点x~不起作用约束




通过定义1我们能够清楚的知道,只有容许集边界上的点才能使得某一个或这某些约束条件起作用。对于上图,我们可以看出,点AB都是容许点,所有的约束对于容许点B来说都是不起作用约束,s2(x)对于容许点A是起作用约束。

几何最优性条件

定义2:CRn中的非空集,且xC。对于pRn,若当x+pC时,对于t0,必有x+tpC,则集合C称为以x为定点的,若锥C为凸集,正称为凸锥
由向量v1,v2,...,vm的所有非负组合构成的集合

C={x|x=i=1mγivi,γi0}
是一个以原点为定点的凸锥,由于这样的凸锥的边界是超平面或直线,所以也称为由v1,v2,...,vm张成的凸多面锥
定义3:(容许方向向量,容许方向锥)DRn中的非空集,且xD,对于非零向量pRn,若存在δ>0,当t(0,δ)时,必有x+tpD,则称p是点x容许方向向量,其方向称为点xd的容许方向。由点x的所有容许方向向量构成的集合称为点x容许方向锥
引理3:x~D={x|si(x~)0,i=1,2,...,m}I={i|si(x~)=0,i=1,2,...,m};并设iI时,si(x)在点x~处可微,当iI时,si(x)在点x~处连续。若向量p对于所有的iI,都有si(x~)Tp>0,则p是点x~的一个容许方向向量。
通过引理3我们知道,若某一个容许点x~近使某一个约束si(x)0变为起作用约束,而其他约束仍为不起作用约束时,可以知道p=si(x~)为点x~处的容许方向向量。若容许点x~使多个约束变为起作用约束,并记集合I为起作用约束的下标的集合,那么方向向量p若能使得所有的si(x~)Tp>0,此时p为容许方向向量。

定理4:f:RnR1在点x处可微,则点x处的下降方向向量p比满足

f(x)Tp<0

下面我们给出不等式约束最优性的几何最优性条件。
定理5: 在不等式约束最优化问题(3)中,若 x是局部最优点,则点x处的容许方向锥和下降方向集是空集。
定理6: 在不等式约束最优化问题(3)中,假设:
(i)x是局部最优点,I={i|si(x)=0,i=1,2,...,m};
(ii)f(x)在点x处可微,当xI时,si(x)在点x连续。
那么,容许方向锥和下降方向集的交集为空。

定理5和定理6仅给出了必要的最优性条件,而没有充分最优性条件。为什么不是充分条件也许很难理解,其实这主要是针对于容许集中某些点可能存在容许方向锥是空集的情况,比如下面的例子。

mins.t.x1x21x21x2201+x21+x220
对于上式,所有的容许点(即在x21+x22=1上的点)均没有容许方向,所以必有容许方向锥和下降方向集的交集为空。所以容许方向锥和下降方向集的交集为空只是极小点的必要条件而不是充分条件。

Fritz John条件

首先介绍两个引理
引理7:(Farkas)a1,a2,...,amb是n维向量,则满足

aTip0,i=1,2,...,m
的向量p也满足
bTp0
的充要条件是,存在非负数γ1,γ2,...,γm,使得
b=i=1mγiai

简单理解: 如下图所示,由于所有的ai都有aTip<0,可以简单的认为所有的向量ai都在超平面s1的一侧,获得认为任意两个向量之间的夹角都要小于π,又由于bTp0,所以向量b与向量ai都在超平面s1一侧,所以存在非负数γi使得杰伦成立。




引理8:(Gordan)a1,a2,...,amb是n维向量,则不存在向量p使得
aTip<0i=1,2,...,m
成立的充要条件是,存在不全为零的非负数γ1,γ2,...,γm,使得
i=1mγiai=0

简单理解: 根据引理8描述,我们知道必有向量ai使得ai=jiβjaj,可以理解为下图。即存在一个超平面s1使得向量si分在超平面两侧;若所有向量ai都在超平面的一侧,必定存在另一条向量在超平面的另一侧使得aTip<0(表述有点问题,我是这么理解的)。




注: 上面的简单理解部分只是帮助理解这两个引理,并不正确,上面两个引理的证明比较繁琐,这里就不再证明。可以理解记忆,对于空间中的两个向量ab,如果aTb<0,则向量ab的夹角为钝角;若aTb>0,则夹角为锐角;若aTb=0,则夹角为直角。下面给出FJ条件。

定理9:(Fritz John) 在不等式约束最优化问题(3)中,设x是局部最优解,f(x)s1(x)s2(x)...sm(x)在点x处可微。那么,存在不全为零的实数μ0μ1...μm,使得

μ0f(x)i=1mμisi(x)=0μisi(x)=0i=1,2,...,mμi0i=0,1,...,m

证明: 由于x是极小点,根据定理6我们知道,比不存在向量p使得

f(x)Tp<0
si(x)Tp<0iI(I)
根据引理8,可知必存在不全为零的数
μ00μi0iI
使得
μ0f(x)iIμisi(x)=0
上式经过改写就是定理9(在定理9中,所有不起作用约束的μi均为0)。

对于FJ条件,我们可以这样理解。首先必须要清楚,定理9(FJ条件)是一个必要性条件,不是充分性条件,可以把定理9看作是定理6的一个数学描述。
(
其实,如果抛去必要性以及充分性,我们可以这么理解。根据FJ条件,假设μ0不为0,我们可以得到

f(x)=iIμiμ0si(x)
由于f(x)为函数f(x)的上升方面,对于任意容许方向向量p,必有
si(x)Tp0iI
因为约束条件为si(x)0,所以对于在x起作用的约束上式必然成立,因为上式成立所以也有f(x)0成立,即对于所有的容许方向来说都不是下降方向。
这部分思考内容不一定正确,只是有助于自己的理解,这样思考也有助于记忆FJ条件会存在一些缺点,即μ0为0的时候,上面的思考就不成立。
)

Kuhn Tucker条件

其实,对于FJ条件,还是存在一定情况使得FJ条件失效的,加入对于在点x处起作用的点的si(x)是线性相关的的,即存在μi使得

iIμisi(x)=0
,那么此时可以让μ0=0使得定理9仍然成立,但是计算出来的结果已经不是我找的最优解,此时FJ条件失去价值。若要求在x处起约束作用的条件的si(x)线性无关,便得到了KT条件。关于KT条件我们不在证明。

定理10:(Kuhn-Tucker) 在不等式约束最优化问题(3)中,假设:i)x是局部最优点;ii)f(x)s1(x)s2(x)...sm(x)在点x处可微;iii)点x处全部起作用的约束线性无关。那么存在实数μ0μ1...μm,使得

f(x)i=1mμisi(x)=0μisi(x)=0i=1,2,...,mμi0i=1,2,...,m

一般性约束最优性条件

关于一般性约束的FJ条件和KT条件,由于FJ条件的证明比较复杂,我们不给出证明;而KT条件可以参考不等式约束的KT条件。下面给出一般约束最优性FJ条件和KT条件的表述。
定理11:(Fritz John) 在约束最优化问题(1)中,设x是局部最优解,f(x)s1(x)s2(x)...sm(x);h1(x)h2(x)...hl(x)在点x处可微。那么,存在不全为零的实数μ0μ1...μm;λ1λ2...λl,使得

μ0f(x)i=1mμisi(x)i=1lλih(x)=0μisi(x)=0i=1,2,...,mμi0i=0,1,...,m

定理12:(Kuhn-Tucker) 在约束最优化问题(1)中,假设:i)x是局部最优点;ii)f(x)s1(x)s2(x)...sm(x);h1(x)h2(x)...hl(x)在点x处可微;iii)点x处全部起作用的约束线性无关。那么存在实数μ0μ1...μm,使得
f(x)i=1mμisi(x)i=1lλih(x)=0μisi(x)=0i=1,2,...,mμi0i=1,2,...,m

原创粉丝点击