程序博客网 > windows相对路径写法

值迭代、策略迭代

来源：互联网发布：windows相对路径写法编辑：程序博客网时间：2024/05/20 00:51

值函数

策略: 状态s到动作a的映射：π:S→A
值函数：值函数都是对应于特定的策略的，即Vπ
对于策略π，状态s的值函数：

Vπ(s)=E[R(s0)+γR(s1)+γ2R(s2)+...|s0=s,π].

也可表示为Bellman形式，是一种迭代思想：

Vπ(s)=R(s)+γ∑s′∈SPsπ(s)(s′)Vπ(s′).

其中Psπ(s)(s′) 表示对应于策略 π 的状态转移概率，即从s转到s’的概率

最优的值函数

对于某状态s的最优值函数用V∗(s)
定义如下：
V∗(s)=maxπVπ(s).
由上式可知，最优的策略π对应最优的值函数、

写成Bellman方程就是：

V∗(s)=R(s)+maxa∈Aγ∑s′∈SPsa(s′)V∗(s′).

最优的策略

用π∗表示
在某一状态s下的最优策略定义如下：

π∗(s)=argmaxa∈A∑s′∈SPsa(s′)V∗(s′).

值迭代

这里写图片描述

策略迭代

这里写图片描述

其中V:=Vπ的计算可根据第一节值函数的定义计算

0 0

windows相对路径写法

windows相对路径写法

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子奇数表100以内所有奇数组成的集合奇数是什么偶数是什么奇文共赏奇文共欣赏奇文瑰句千古奇文奇文共欣赏的下一句看透人心的千古奇文奇支斜的读音是什么黄鹤楼奇景三清山奇景奇景黄鹤楼奇景黄山奇景自然奇景世界奇景黄鹤楼奇景白盒 2018黄鹤楼奇景价目表黄鹤楼硬奇景奇景让他呆立黄鹤楼奇景100一包硬奇景多少钱一包庭中有奇树原文庭中有奇树赏析庭中有奇树朗读庭中有奇树朗诵庭中有奇树拼音版庭中有奇树教案亭中有奇树古诗亭中有奇树庭中有奇树作者奇楠树庭中有奇树古诗十九首庭中有奇树背景厅中有奇树庭中有奇树原文朗读庭中有奇树的思想感情奇生树的功效与作用庭中有奇树主旨归纳庭中有奇树赏析50字