拉格朗日对偶性

来源:互联网 发布:120首网络音乐产品 编辑:程序博客网 时间:2024/05/16 10:33

本小结来自《统计学习方法》的附录C。

概述

  在约束最优化问题中,常常利用拉格朗日对偶性(Lagrange duality)将原始问题转化为更容易求解的对偶问题,通过解对偶问题而得到原始问题的解,该方法在许多模型中都有应用,比如,最大熵模型与支持向量机。这里主要说拉格朗日对偶性的主要概念和结果。

原始问题

  假设f(x),ci(x),hj(x)是定义在Rn上的连续可微函数。考虑约束优化问题

minxRn f(x)(1)s.t.ci(x)0,i=1,2,...,k(2)   hj(x)=0,j=1,2,...,l  (3)
称此约束最优化问题为原始最优化问题或原始问题。
  首先,引进广义拉格朗日函数
L(x,α,β)=f(x)+i=1kαici(x)+j=1lβjhj(x)(4)

这里,x=(x(1),x(2),...,x(n))Rnαi,βj是拉格朗日乘子,αi0。考虑x的函数:
θP(x)=maxα,β:αi0L(x,α,β)(5)

这里,下标P表示原始问题。
  假设给定某个x。如果x违反原始问题的约束条件,即存在某个i使得ci(w)>0或者存在某个j使得hi(w)0,那么就有
θP(x)=maxα,β:αi0f(x)+i=1kαici(x)+j=1lβjhj(x)=+(6)

因为如果某个i使约束ci(x)>0,则可令αi+,若某个j使得hi(w)0,则可令βjhj(x)+,而将其余αi,βj都取为0。
  相反地,如果x满足约束条件式(2)和式(3),则由(5)和(4)
可知,θP(x)=f(x)。因此,
θP(x)={f(x),x+,

所以如果考虑极小化问题
minxθP(x)=minxmaxα,β:αi0 L(x,α,β)(8)
它是与原始最优化问题(1)~(3)等价的,即他们有相同的解。问题minx maxα,β:αi0 L(x,β)称为广义拉格朗日函数的极小极大问题。这样一来,就把原始最优化问题表示为广义拉格朗日函数的极小极大问题。为了方便,定义原始问题的最优解
p=minxθP(x)(9)

称为原始问题的解。

对偶问题

  定义

θD(α,β)=minxL(x,α,β)(10)

再考虑极大化θD(α,β)=minxL(x,α,β),即
maxα,β:αi0θD(α,β)=maxα,β:αi0minxL(x,α,β)(11)

问题maxα,β:αi0minxL(x,α,β)称为广义拉格朗日函数的极大极小问题。
   可以将广义拉格朗日函数的极大极小问题表示为约束最优化问题:
maxα,βθD(α,β)=maxα,βminxL(x,α,β)(12)s.t. αi0,  i=1,2,...,k(13)

称为原始问题的对偶问题。定义对偶问题的最优解
d=maxα,βθD(α,β)(14)

称为对偶问题的值

原始问题与对偶问题的关系

定理1若原始问题和对偶问题都有最优解,则

d=maxα,βθD(α,β)minxmaxα,β:αi0 L(x,α,β)=p(15)

推论1xα,β分别是原始问题(1)~(3)和对偶问题(12)~(13)的可行解,并且d=p,则xα,β分别是原始问题和对偶问题的最优解。
在某些条件下,原始问题和对偶问题的最优解相等,d=p。这时可以用解对偶问题替代解原始问题。下面以定理的形式叙述有关的重要结论。
定理2考虑原始问题(1)~(3)和对偶问题(12)~(13)。假设函数f(x)ci(x)是凸函数,hj(x)是仿射函数;并且假设不等式约束ci(x)是严格可行的,即存在x,对所有ici(x)<0,则存在xα,β,使x使原始问题的解,α,β是对偶问题的解,并且
p=d=L(x,α,β)

定理3对原始问题(1)~(3)和对偶问题(12)~(13),假设函数f(x)ci(x)是凸函数,hj(x)是仿射函数,并且假设不等式约束ci(x)是严格可行的,则xα,β分别是原始问题和对偶问题的解的充分必要条件是xα,β满足下面的Karush-Kuhn-Tucker(KKT)条件:
xL(x,α,β)=0αL(x,α,β)=0βL(x,α,β)=0αici(x)=0,i=1,2,...,kci(x)0,i=1,2,...,kαi0,i=1,2,...,khj(x)=0,j=1,2,...,l