Monto Carlo估计动作价值(action values)

来源:互联网 发布:windows longhorn开机 编辑:程序博客网 时间:2024/06/18 10:59

Monto Carlo估计动作价值(action values)

@(Machine Learning)

名词翻译

  • action 行动,动作
  • action values 动作价值
  • state values 状态价值
  • policy 策略

总体思路

总体的指导思路是:在Model未知时,估计动作价值要比估计状态价值要有用一些。

而当Model是已知的,仅仅利用状态价值就足够决定策略

Model未知时,只有状态价值无法决定策略

动作价值估计

必须估计出每一个行动的价值,才可以决定选出最优策略。而行动本身是in状态的。

–> 问题转化为估计qπ(s,a).

也就是说,需要知道每一个状态和行动的组合的价值。

问题

在取样中,不是所有的(s,a)对都会被保证用上,因此,就不能保证估计所有的qπ(s,a).

比如说,在确定的策略下去估计行动价值,每一个状态下对应的行动选择是固定的,这样就像是选择了一条直接走到终点的路径,很多(s,a)对就用不上。

而一旦很多(s,a)用不上,蒙特卡罗方法的核心目标:求取returns的均值就无法实现。

解决思路

共有两种解决的办法:

  • exploring starts 探索式开始法
  • 选用随机策略,保证每一个(s,a)的概率大于0

探索式开始法的意思就是:在多次抽取样本是,开头要保证所有的(s,a)对被用上。

随机策略保证每个(s,a)出现的概率大于0,也可以保证在多次试验中出现所有的(s,a)对。

其中,探索式开始法,不能很好处理实际的与环境交互的问题。随机策略的使用要更广泛一些。

原创粉丝点击