如何优化正则项为2-1范数的问题

来源：互联网发布：网络诈骗案多久能破案编辑：程序博客网时间：2024/04/30 03:51

转自：http://www.cnblogs.com/murongxixi/p/3585574.html

在T个任务的多任务学习(multi-task learning)中，设第t个任务对应的分类器的参数记为wt，那么其对应的问题一般会形式化成

min W l o s s (W) + λ | | W | | 2 *

其中

W=[w1,…,wT]W=[w1,…,wT]，

||⋅||∗||⋅||∗是某个矩阵范数，

λλ是权衡损失项和正则项的参数。

　　进行多任务学习时，一般会假设不同任务之间会有一些共性(否则也没必要把它们放在一起学习了)，那么自然就会有些特征对它们集体都很有用，而有些特征对它们集体都很没用，这体现在W上就是W的有些行会都不为0，也即该特征很有用，有些行都为0，即该特征很没用。那么这时候，||⋅||∗取2-1范数是最合理的。具体来说，设矩阵W∈Rd×T的第i行为wi⊤，那么其2-1范数定义为

| | W | | 2, 1 = \sum i = 1 d | | w i | | 2

也就是行内取2范数，行间取1范数。

　　直接优化2-1范数并不容易，一般方法是引入辅助变量Δ=diag(μ1,…,μd)进行交替优化。注意tr(AB)=tr(BA)，于是

t r (W ⊤ Δ - 1 W) = t r ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ [w 1, w 2, \dots, w d] ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ 1 μ 1 0 ⋮ 0 0 1 μ 2 ⋮ 0 \dots \dots ⋱ \dots 00 ⋮ 1 μ d ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ w 1 ⊤ w 2 ⊤ ⋮ w d ⊤ ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ = t r (\sum i = 1 d w i w i ⊤ μ i) = \sum i = 1 d t r ( w i w i ⊤ ) μ i = \sum i = 1 d t r ( w i ⊤ w i ) μ i = \sum i = 1 d | | w i | | 2 2 μ i

由Cauchy-Schwarz不等式知

min μ 1, \dots, μ d, \sum d i = 1 μ i = 1, μ i \geq 0 \sum i = 1 d | | w i | | 2 2 μ i

的最优解是

μ * i = | | w i | | 2 \sum d i = 1 | | w i | | 2, i = 1, \dots, d (1)

于是

min μ 1, \dots, μ d, \sum d i = 1 μ i = 1, μ i \geq 0 t r (W ⊤ Δ - 1 W) = \sum i = 1 d | | w i | | 2 2 μ * i = \sum i = 1 d | | w i | | 2 \sum i = 1 d | | w i | | 2 = | | W | | 2 2, 1

故问题转化为：

min W \in R d \times T, μ 1, \dots, μ d, \sum d i = 1 μ i = 1, μ i \geq 0 l o s s (W) + λ t r (W ⊤ Δ - 1 W)

　　又

t r (W ⊤ Δ - 1 W) = t r ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ w ⊤ 1 w ⊤ 2 ⋮ w ⊤ T ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ 1 μ 1 0 ⋮ 0 0 1 μ 2 ⋮ 0 \dots \dots ⋱ \dots 00 ⋮ 1 μ d ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ [w 1, w 2, \dots, w T] ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ = t r ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ [w 1, w 2, \dots, w T] ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ w ⊤ 1 w ⊤ 2 ⋮ w ⊤ T ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ 1 μ 1 0 ⋮ 0 0 1 μ 2 ⋮ 0 \dots \dots ⋱ \dots 00 ⋮ 1 μ d ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ = t r ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ (\sum t = 1 ⊤ w t w ⊤ t) ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ 1 μ 1 0 ⋮ 0 0 1 μ 2 ⋮ 0 \dots \dots ⋱ \dots 00 ⋮ 1 μ d ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ = \sum t = 1 T t r ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ w t w ⊤ t ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ 1 μ 1 0 ⋮ 0 0 1 μ 2 ⋮ 0 \dots \dots ⋱ \dots 00 ⋮ 1 μ d ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ = \sum t = 1 T t r ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ w ⊤ t ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ 1 μ 1 0 ⋮ 0 0 1 μ 2 ⋮ 0 \dots \dots ⋱ \dots 00 ⋮ 1 μ d ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ w t ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ = \sum t = 1 T w ⊤ t ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ 1 μ 1 0 ⋮ 0 0 1 μ 2 ⋮ 0 \dots \dots ⋱ \dots 00 ⋮ 1 μ d ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ w t

故问题进一步转化为：

min w t \in R d, μ 1, \dots, μ d, \sum d i = 1 μ i = 1, μ i \geq 0 \sum t = 1 T ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ l o s s (w t) + λ w ⊤ t ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ 1 μ 1 0 ⋮ 0 0 1 μ 2 ⋮ 0 \dots \dots ⋱ \dots 00 ⋮ 1 μ d ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ w t ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟

不难证明目标函数关于

WW和

ΔΔ是联合凸的。固定

WW，

ΔΔ的解析解由(

11)式给出；固定

ΔΔ，若loss项取hinge loss，那么就是求解一个SVM(取其他loss如logsitc loss，就是logistic regression)。

0 0