强化学习——值函数与Bellman方程

来源:互联网 发布:萍乡网络小额贷款公司 编辑:程序博客网 时间:2024/06/05 07:18

在强化学习中,agent和环境之间进行一系列交互:在每个时刻t,根据环境的状态和奖励,agent采取某一行为;这个行为会作用到环境中,环境改变状态并对agent进行奖励。

这里写图片描述

agent的目标是最大化累积奖励。

1 MDP

马尔可夫决策过程(Markov Decision Process, MDP)是对环境的建模。

MDP是一个五元组<S,A,P,R,γ>,其中
- S是一个有限状态集
- A是一个有限动作集
- P是一个状态转移概率矩阵,Pass=P[St+1=s|St=s,At=a]
- R是一个奖励函数,Ras=E[Rt+1|St=s,At=a]
- γ是一个折扣因子γ[0,1].

策略π是agent的行为函数:

π(a|s)=P[At=a|St=s]

注意,策略只和状态相关,和时间无关(静态的)。

2 值函数与Bellman期望方程

2.1 值函数

值函数是对未来奖励的一个预测。

回报(return)
回报Gt是从时刻t开始的总折扣奖励:

Gt=Rt+1+γRt+2+=k=1γkRt+k+1

状态值函数
状态值函数vπ(s)是从状态s出发,按照策略π采取行为得到的期望回报:

vπ(s)=Eπ[Gt|St=s]

状态值函数可以用来评价状态的好坏。

根据定义可以得到:

vπ(s)=Eπ[Rt+1+γGt+1|St=s]=Eπ[Rt+1+γvπ(St+1)|St=s]

行为值函数
行为值函数qπ(s,a)是从状态s出发,采取行为a后,然后按照策略π采取行为得到的期望回报:

qπ(s,a)=Eπ[Gt|St=s,At=a]

根据定义可以得到:

qπ(s,a)=E[Rt+1+γqπ(St+1,At+1)|St=s,At=a]

2.2 Bellman期望方程

Bellman期望方程其实就是vπ(s)qπ(s,a)自身以及相互之间的递推关系。

vπ(s)qπ(s,a)之间的关系

vπ(s)=aAπ(a|s)qπ(s,a)(1)

这里写图片描述

qπ(s,a)=Ras+γsSPassvπ(s)(2)

这里写图片描述

vπ(s)自身的递推关系

把公式(2)代入(1)中得到:

vπ(s)=aπ(a|s)Ras+γsPassvπ(s)(3)

这里写图片描述

qπ(s,a)自身的递推关系

把公式(1)代入(2)中得到:

qπ(s,a)=Ras+γsPassaπ(a|s)qπ(s,a)(4)

这里写图片描述

3 最优值函数与Bellman最优方程

3.1 最优值函数

最优状态值函数
最优值函数v(s)是在所有策略上的最大值函数:

v(s)=maxπvπ(s)

最优行为值函数
最优行为值函数q(s,a)是在所有策略上的最大行为值函数:

q(s,a)=maxπqπ(s,a)

当最优值函数已知时,可以认为MDP已被解决。

3.2 Bellman最优方程

Bellman最优方程其实就是v(s)q(s,a)自身以及相互之间的递推关系。

v(s)q(s,a)之间的关系

v(s)=maxπvπ(s)=maxπaAπ(a|s)qπ(s,a)=maxaq(s,a)(5.1)(5.2)(5.3)

这里写图片描述

问题:(5.3)为什么成立?

aAπ(a|s)qπ(s,a)maxaqπ(s,a)maxπaAπ(a|s)qπ(s,a)maxπmaxaqπ(s,a)maxπaAπ(a|s)qπ(s,a)maxaq(s,a)

只能证明出,怎么证明=呢?

q(s,a)=maxπqπ(s,a)=maxπRas+γsSPassvπ(s)=Ras+γsSPassv(s)(6.1)(6.2)(6.3)

这里写图片描述

同样,怎么证明公式(6.3)呢?

v(s)自身的递推关系

把公式(6)代入(5)中得到:

v(s)=maxaRas+γsSPassv(s)(7)

这里写图片描述

q(s,a)自身的递推关系

把公式(5)代入公式(6)得到:

q(s,a)=Ras+γsSPassmaxaq(s,a)(8)

这里写图片描述

4 最优策略

定义策略之间的偏序关系

ππ if vπ(s)vπ(s), s

那么有如下定理成立:

对任意MDP:

  • 存在最优策略π,满足ππ,π
  • 所有最优策略的状态值函数都等于最优状态值函数vπ(s)=v(s)
  • 所有的最优策略的行为值函数都等于最优行为值函数qπ(s,a)=q(s,a)

思考这样一个问题:如果某个状态s1是在策略π1上取到最优状态值,而s2是在另一个策略π2上取得最优状态值,那么最优策略是什么呢?

这种情况下是不存在最优策略的。
但是对于有限MDP,并且值函数有界时,上述情况并不存在,即至少有一个最优策略。

原创粉丝点击
热门问题 老师的惩罚 人脸识别 我在镇武司摸鱼那些年 重生之率土为王 我在大康的咸鱼生活 盘龙之生命进化 天生仙种 凡人之先天五行 春回大明朝 姑娘不必设防,我是瞎子 在淘宝买东西说好返现不给返怎么办 联通斐讯路由器返现被骗了怎么办 消费分期后退款分期账单还在怎么办 新房装修物业电梯用不了费用怎么办 在京东拼购没有拼成已付款的怎么办 微信上买东西发的货不一样怎么办 微信买东西收到货不付款怎么办 京东商品店家待出库不发货怎么办 微信二维码付款多付了怎么办 微信二维码付款付错了怎么办 身份证被移动公司拉黑了怎么办 微店申请退款卖家不同意怎么办 淘宝退货快递把我名字填错了怎么办 刚申请淘宝店信用为零怎么办 淘宝买家已付款卖家不做皮单怎么办 淘宝店铺被屏蔽7天后该怎么办 香信得登录密码忘了怎么办 苹果手机迅雷下载不了的资源怎么办 快手官方私信你的作品违规了怎么办 顺丰生鲜速配食物坏了怎么办 半年汽车没有年检 交警抓到怎么办 没年检的车子被交警抓到怎么办 去年检的路上被交警抓了怎么办 微信聊天界面群聊删除找不到怎么办 微博抽奖的奖品没发货怎么办 两个微信号绑了一个手机号怎么办 欧月玫瑰花朵叶子上有白粉怎么办 进对方空间被挡不想让他知道怎么办 qq上买东西给钱了对方没给怎么办 微信钱包手势密码忘记了怎么办 买家一起拍了两件宝贝怎么办 宿雾航空付款无法显示验证码怎么办 不小心把购物车的东西删了怎么办 微信在别人电脑登录忘退出怎么办 微信电脑版忘了退出怎么办 给微商交了定金不给退怎么办 方舟手游飞龙驯服时间不够怎么办 淘宝上买了假货找不到商家怎么办 魅蓝手机一直在开机画面怎么办 在实体店买的手机想退怎么办 淘宝买了东西发货了不想要了怎么办