FTRL两个Regret上限的证明 part-2

来源：互联网发布：淘宝分类全屏编辑：程序博客网时间：2024/05/17 00:17

前言

　　证明的路径：
　　为了求证Regret上限，先证明了两个引理，再利用凸函数间的性质定理，对两个引理做放缩推导，得证Regret的上限。

Regret上限

　　这里先给出Regret的两个上限，再然后予以证明。
　　1) General FTRL Bound
　　假设rt使得h0:t+ft+1=r0:t+f1:t+1是1−strong−convexw.r.t||⋅||(t−1)
　　

R e g r e t (x *, f t) \leq r 0 : T - 1 (x *) + 1 2 \sum t = 1 T | | g t | | 2 (t - 1), *

　　2) FTRL-Proximal Bound
　　假设

rt使得h0:t=r0:t+f1:t是1−strong−convexw.r.t||⋅||(t)
　　

R e g r e t (x *, f t) \leq r 0 : T (x *) + 1 2 \sum t = 1 T | | g t | | 2 (t), *

　　其中的

||⋅||(t)表示

||⋅||是

t的函数。

x∗是使得T轮后，全局最优的解。r(x)≥0

两个上限引理

　　引理1）任意loss函数的Regret的上限引理。这个引理非常重要，是各个上限的基础，其证明过程有助于理解后面加入Regular项之后的Regret仍然有限
　　ft(x)为任意类型的loss函数，rt(x)为任意类型的regular函数。
　　定义h0:t=f1:t(x)+r0:t(x)，xt+1=argminxh0:t(x)
　　

R e g r e t (x *) \leq r 0 : T (x *) + \sum t = 1 T h 0 : t (x t) - h 0 : t (x t + 1) - r t (x t)

　　引理2）loss函数是凸函数时，regret的上限引理。

gt(x)∈∂f(x)
　　

R e g r e t (x *) \leq r 0 : T (x *) + \sum t = 1 T r * 0 : t (- g 1 : t) + r * 0 : t - 1 (- g 1 : t - 1 + g t x t)

上限引理1的证明

　　为了将∑Tt=1ft(xt)−ft(x∗)与h0:t(x)结合起来，其中后者天然带有前者的部分。
　　想到尝试∑Tt=1ht(xt)−ht(x∗)　(1)
　　将ht(x)用h0:t(x)表示：ht(x)=h0:t(x)−h0:t−1(x)=ft(x)+rt(x)
　　　　　　　　　　　或者h0:t−1(xt)+ht(xt)=∑s=ts=0hs(xt)=h0:t(xt)这样表示更好理解。
　　　　　　　　　　　第t轮的ht(xt)，其中xt=argminx{h0:t−1(x)}
　　　　　　　　　　　当前在xt下的总h0:t是xt下的h0:t−1(xt)+ht(xt)。
　　于是，我们可以继续，对上式化简:
　　(1)式=∑Tt=1ft(xt)−h0:T(x∗)=∑Tt=1h0:t(xt)−h0:t−1(xt)−h0:T(x∗)
　　　　　由xt+1的取值方式，从而xT+1=argminx{h0:T(x)}
　　　　　于是 h0:T(xT+1)≤h0:T(x)，从而h0:T(xT+1)≤h0:T(x)，毕竟x∗∈x
　　　　　可能会想，这样是不是违反直觉，为啥全局最优参数还不好呢？
　　　　　这是不违反的，因为x∗是全局最优解，这里xT+1是当前的最优解，比较的维度不一样。
　　(1)式≤∑Tt=1h0:t(xt)−h0:t−1(xt)−h0:T(xT+1)
　　展开上式右侧=∑Tt=1h0:txt−[∑Tt=1h0:t−1(xt)+h0:T(xT+1)]
　　　　　　　　=∑Tt=1h0:txt−[∑Tt=1h0:t(xt+1)−h0:0(x1)]
　　　　　　　　这里只是简单的形式整理
　　　　　　　　因为h0:0(x1)=f0(x1)+r0(x1)=0+r0(x1)≥0，先决条件rt(x)≥0
　　　　　　　　所以≤∑Tt=1h0:txt−∑Tt=1h0:t(xt+1)=≤∑Tt=1h0:txt−h0:t(xt+1)
　　(1)式得到

\sum t = 1 T h 0 : t (x t) - h 0 : t (x *) \leq \sum t = 1 T h 0 : t (x t) - h 0 : t (x t + 1)

展开上式左侧=∑Tt=1f1:t(xt)+r0:t(xt)−f1:t(x∗)−r0:t(x∗)
　　简单式子变化得到：
　　

∑Tt=1f1:t(xt)−f1:t(x∗)≤∑Tt=1r0:t(x∗)+∑Tt=1h0:t(xt)−h0:t(xt+1)−rt(xt)
　　证得引理1。
　　

引理1，将Regret与h0:t(xt)和h0:t(xt+1)联系起来了，有利于利用凸函数间的性质定理。
　　notice:
　　　　　　　　

∑Tt=1h0:t(xt)−h0:t(x∗)≤∑Tt=1h0:t(xt)−h0:t(xt+1)
　　1) 上述这个不等式将满足

xt+1=argminx[h0:t(x)]的解

x和函数h联系起来了，注意这个不等式是在线学习的基础不等式之一。
　　2) 这个不等式，左侧是某次

xt下，当前模型-理想模型误差，右侧是当前模型某次解

xt与下一个解

xt+1下的差，将现在的模型与理想模型的距离限制在模型前后两次解下的差范围内了。
　　3) 不等式这个时候，只跟函数

h0:t(x)和解

xt+1=argminx[h0:t(x)]有关，而与

ft(x)和

rt(x)无关。

上限引理2的证明

　　引理2是对引理1的拓展，在loss为凸函数的情况下，将Regret上限与r(x)的凸共轭函数联系起来。
　　这里比较有意思的是，通过凸函数的导数性质，将凸−loss下的Regret，放缩到linear−loss下的Regret，这样之后，argmin和凸共轭的定义出现了交集。
　　前文已知，凸函数有个性质：

f (x) - f (y) \leq g x (x - y) ， 其 中 g x \in \partial f (x) ， \forall x, y \in R

　　所以

Regret(x∗,f)≤Regret(x∗,f^)
　　其中

f^=gx，这样将上限做了简化放缩。
　　于是

h0:t(x)=f1:t(x)+rt(x)=g1:tx+rt(x)
　　OK，现在看一下，这个交集的样子。
　　

⎧⎩⎨⎪⎪h0:t(xt+1)=argminx{f1:t(x)+r0:t(x)})=argminx{g1:tx+r0:t(x)}r∗(−g1:t)=argmaxx{−g1:tx−rt(x)}=−argminx{g1:tx+rt(x)}=−h0:t(xt+1)
　　得到

r * (- g 1 : t) = - h 0 : t (x t + 1)

　　这样，我们来看引理1的后半部分。
　　

h0:t(xt)−h0:t(xt+1)−rt(xt)
　　　　1)

h0:t(xt+1)已经可以用

r∗(−g1:t)表示了。
　　　　2)

h0:t(xt)−rt(xt)
　　　　　

=f1:t(xt)+r0:t(xt)−rt(xt)
　　　　　

=f1:t−1(xt)+ft(xt)+r0:t−1(xt)
　　　　　将

f1:t(xt)拆出

t项，同时将

r0:t(xt)中减去

t项。
　　　　　从而

=f1:t−1(xt)+r0:t−1(xt)+ft(xt)
　　　　　

=h0:t−1(xt)+ft(xt)
　　由凸共轭与r的关系，可知

h0:t−1(xt)=−r∗(−g1:t−1)
　　所以得到：
　　

h0:t(xt)−h0:t(xt+1)−rt(xt)
　　

=r∗(−g1:t)−r∗(−g1:t−1)+ft(xt)
　　

=r∗(−g1:t)−r∗(−g1:t−1)+gt∗xt
　　引理2从而证得。
　　两个引理举例最开始的Regret上限还有些差距，下面介绍两个凸函数间关系性质。

凸函数间的性质证明

两个凸函数相加

　　两个凸函数相加，会有什么效果呢？现给出两个凸函数及其对应局部解和全局解的关系。
　　假设ϕ1(x)是凸函数，x1=argminxϕ1(x)
　　取ψ(x)是凸函数，使得ϕ2(x)=ϕ1(x)+ψ(x)是strongly-convex的w.r.t ||·||
　　x2=argminxϕ2(x)
　　则对∀b∈∂ψ(x1)，x∈R，都有:
　　

⎧ ⎩ ⎨ | | x 1 - x 2 | | \leq | | b | | * ϕ 2 (x 1) - ϕ 2 (x) \leq 1 2 | | b | | 2 * (2) (3)

　　(2)式给出了次解与全局解的距离上限，受限于次解在另一组成函数的次导数。
　　(3)式给出了次解与任意解在总函数上的函数值差，受限于次解在另一组成函数的次导数。
　　尤其(3)不等式，将三个函数都扯上了关系。

三个凸函数相加

　　假设ϕ1(x)是凸函数，x1=argminxϕ1(x)
　　取ψ(x)和Ψ(x)是凸函数，使得ϕ2(x)=ϕ1(x)+ψ(x)+Ψ(x)是strongly-convex的w.r.t ||·||
　　x2=argminxϕ2(x)
　　则对∀b∈∂ψ(x1)，x∈R，都有:
　　

ϕ 2 (x 1) - ϕ 2 (x) \leq 1 2 | | b | | 2 * + Ψ (x 1) - Ψ (x 2) (4)

　　图，手写的函数相加的性质说明。见，附图一。
　　这个性质在FTRL-Proximal的上限证明中用到，加了一个Regular项。

Regret上限的证明

Regret-1的证明过程

　　利用两个凸函数相加的性质定理，对引理1化简，求证Regret-1。
　　求证思路：
　　==>
　　　　证明的核心公式是：h0:t(xt)−h0:t(xt+1)−rt(xt)≤12||gt||2(t−1),∗
　　　　需要构造三个函数ϕ1(x),ψ(x),和ϕ2(x)，其中ϕ1(x)能够提供自身的最优解x1。
　　　　刚好，xt=argminxh0:t−1(x)，可以构造ϕ1(x)=h0:t−1(x)。
　　　　另外，由于gt∈∂ft(x)，则ψ(x)=ft(x)是非常好的选择。
　　　　于是，ϕ2(x)=ϕ1(x)+ft(x)=h0:t−1(x)+ft(x)
　　　　假设ϕ2(x) is 1−strongly−convex w.r.t ||⋅||(t−1)
　　　　这个假设很牛逼，感觉就是为了假设而假设，也确实在构造对应的rt(x)时，使得满足||⋅||(t−1)条件。
　　　　注意到，这种构造方式下，会有
　　　　ϕ2(x)+rt(x)=h0:t−1(x)+ft(x)+rt(x)=h0:t(x)
　　　　得到ϕ2(xt)+rt(xt)=h0:t(xt) ； ϕ2(xt+1+rt(xt+1)=h0:t+1(xt+1)
　　<==
　　h0:t(xt)−h0:t(xt+1−rt(xt) (5)
　　=ϕ2(xt)+rt(xt)−ϕ2(xt+1)−rt(xt+1)−rt(xt)
　　=ϕ2(xt)−ϕ2(xt+1−rt(xt+1)
　　由于rt(x)≥0是先决条件，故：(5)式≤ϕ2(xt)−ϕ2(xt+1
　　这里利用两个凸函数相加的性质定理，得：ϕ2(xt)−ϕ2(x)≤||gt||2∗
　　对任意解x可以，对特殊解xt+1也同样可以，得：ϕ2(xt)−ϕ2(xt+1)≤||gt||2∗
　　从而得到：h0:t(xt)−h0:t(xt+1)−rt(xt)≤||gt||2(t−1),∗
　　引理-1也就可以变成Regret-1了。
　　

R e g r e t (x *, f t) \leq r 0 : T - 1 (x *) + 1 2 \sum t = 1 T | | g t | | 2 (t - 1), * 得 证

　　图，手写的利用两函数相加性质，证明Regret-1的过程。见附图。

Regret-2的证明过程

　　这里同样利用两个凸函数相加的性质定理，对引理2化简，求证Regret-2。
　　求证思路：
　　==>
　　　　证明的核心公式是：h0:t(xt)−h0:t(xt+1)−rt(xt)≤12||gt||2(t),∗
　　　　这里构造ϕ1(x)的角度是与Proximal密切相关的。
　　　　rt(x)是proximal的，意味着rt(x)=12||x−xt||22，因此xt是rt(x)的最优解，这个地方很关键。
　　　　由此想到，rt(x)可以作为ϕ1(x)的合适函数，但是这样构造ϕ1(x)的话，很可惜无法顺利构造ϕ2(x)。
　　　　这个时候，如果能够构造出跟x_{t+1}相关的函数，那就是再好不过了，并且跟rt(x)相关的。
　　　　注意到xt=argminx[h0:t−1(x)+12||x−xt||22]。what a happy life!
　　　　而如果把ϕ1(x)构造成上面的式子，ϕ1(x)=h0:t−1(x)+rt(x)，
　　　　则可以利用h0:t=h0:t−1(x)+rt(x)+ft(x)=ϕ1(x)+ft(x)顺利构造出ϕ2(x)。
　　　　其中xt+1=argminxh0:t(x)，多么让人开心的事情啊。
　　<==
　　　　因此，构造

{ϕ 1 (x) = h 0 : t - 1 (x) + r t (x) ϕ 2 (x) = ϕ 1 (x) + f t (x)

　　　　其中

rt(x)=σt2||x−xt||22，

ϕ2(x)是

1−strongly−convex

w.r.t

||⋅||(t)的。
　　

h0:t(xt)−h0:t(xt+1)−rt(xt)
　　

≤h0:t(xt)−h0:t(xt+1，因为

rt(x)≥0
　　

=ϕ2(xt)−ϕ2(xt+1)≤12||gt||2(t),∗，因为凸函数加和性质定理。
　　引理-2也就可以变成Regret-2了。
　　

R e g r e t (x *, f t) \leq r 0 : T (x *) + 1 2 \sum t = 1 T | | g t | | 2 (t), * 得 证

总结

　　费了这么大的周折，拐了两道弯正面的两个Regret-Bound定理，有什么用呢？
　　这两个定理就是两个普遍意义上的Regret上限，一个是rt(x)为orignal-center约束的，一个是对rt(x)为Proximal约束的。
　　可以作为基于xt+1=argminx[h0:t]参数更新方法的在线学习分析框架，套到各个在线学习的方法上，分析其上限及局限。
　　下篇《几种在线学习方法的上限比较》将详细讲解着两个上限，在不同在线学习方法中的分析应用。
　　
notice : 凸函数从定义到性质，都是一直围绕着导数打转。默认||⋅||都是2-范数。

附图

　　图一：凸函数相加的图解分析
　　图二：利用凸函数相加的性质定理，证明Regret-Bound-1
　　图三：强凸+凸==>强凸的证明。sigma都一样
　　图四：||⋅||(t)与||⋅||(t−1)的理解
附，图一：凸函数相加的图解分析
这里写图片描述
附，图二：利用凸函数相加的性质定理，证明Regret-Bound-1

附，图三：强凸+凸==>强凸的证明。sigma都一样。

附，图四：||⋅||(t)与||⋅||(t−1)的理解。

阅读全文

0 0