有关**迭代学习**控制的一些基本概念

来源:互联网 发布:idc销售网站源码 编辑:程序博客网 时间:2024/05/29 12:04

有关迭代学习控制的一些基本概念


这一篇主要讲一些在学习控制研究领域中常常遇到的基本概念和专业的英语表述方式,相当于先入门吧.
  • 马尔科夫决策过程 (Markov decision processes, MDP)

以 移动机器人走地图的例子来说明MDP。MDP是一个五元组(S,A,Psa,γ,R),包括:

元 含义 解释 S 状态集,所有可能出现的状态 所有机器人可能出现的位置 A 动作集,所有可能的行动 假设机器人只能朝四个方向走,那么A就是{N,S,E,W}表示四个方向 P 概率,在S状态时采取a行动的概率 … γ discount factor,0到1之间的数,决定了动作先后对于结果的影响度 R reward function 地图上的权值

机器人在地图上活动的过程也可以表现为如下的形式:从初始位置S0开始,选择一个A到达另一个状态S,直到到达终状态:

S0a0S1a1S2a2S3...

定义这个过程的价值为:

R(S0,A0)+γR(S1,A1)+γ2R(S2,A2)+...

可以看出,折扣因子随着时间的增加对价值的影响变小,也即,早期的策略对价值的影响较大。至此,对MDP过程的策略有了感性的认识。那么策略的准确内涵是什么呢?

策略(Policy): 对给定的MDP过程,上述表格中的五元素都是定值,所以存在一个最优的策略(Policy),即,对于每个状态S给出一个动作A,使得系统能从任意一个初始状态开始,以最大的价值到达最终状态。策略通常用π表示。策略的最优性由价值的最大化来体现的。

在策略π下,以s为初始状态取得的价值为:

Vπ(s)=E[R(s0)+γR(s1)+γ2R(s2)+...|s0=sπ]

进一步,通过Bellman equation,上式又等于:

Vπ(s)=R(s)+γsSPsπ(s)(s)Vπ(s)

上式是一个递归过程。必须首先知道所有的s’的价值函数Vπ,才能得到s的价值函数。

  • 价值迭代 Value Iteration (VI)

    价值迭代的过程是:

    1. 对每个状态s,初始化价值函数V(s):=0;
    2. 对每个状态s,更新价值函数:
      V(s):=R(s)+maxaAγsPsa(s)V(s)
    3. 重复上述步骤2,直至收敛。

    由于已知R的值,所以通过不断更新V,最后converge到V*,再通过V*就可以得到最优策略π*。其实就是看所有action中哪个action最后的value值最大即可,此处是通过bellman equation,可以通过解bellman equation得到。

    注意,马尔科夫决策过程中的P其实是指客观存在的概率,比如机器人转弯可能没法精确到一个方向。而不是指在s状态机器人选择a操作的概率,刚才没说清楚,在此进一步的说清楚:P是一个客观的统计量。

    Psa(s)=sa,使ssa

  • 策略迭代 Policy Iteration (PI)

    策略迭代的过程是:

    1. 随机地初始化策略π;
    2. 重复下述过程,直至收敛 :
      (a) 使V:=Vπ;
      (b) 对每个状态s, 使
      π(s):=argmaxaAγsPsa(s)V(s)

    这次就是通过每次最优化π来使π converge到π,V到V。但因为每次都要计算π的value值,所以这种算法并不常用。

    价值迭代与策略迭代感觉只是两个算法在过程上的区别,但感觉本质上差别不大。


1 0