Monto Carlo估计动作价值(action values)

来源：互联网发布：windows longhorn开机编辑：程序博客网时间：2024/06/18 10:59

@(Machine Learning)

总体的指导思路是：在Model未知时，估计动作价值要比估计状态价值要有用一些。

而当Model是已知的，仅仅利用状态价值就足够决定策略。

Model未知时，只有状态价值无法决定策略。

必须估计出每一个行动的价值，才可以决定选出最优策略。而行动本身是in状态的。

–> 问题转化为估计qπ(s,a).

也就是说，需要知道每一个状态和行动的组合的价值。

在取样中，不是所有的(s,a)对都会被保证用上，因此，就不能保证估计所有的qπ(s,a).

比如说，在确定的策略下去估计行动价值，每一个状态下对应的行动选择是固定的，这样就像是选择了一条直接走到终点的路径，很多(s,a)对就用不上。

而一旦很多(s,a)用不上，蒙特卡罗方法的核心目标：求取returns的均值就无法实现。

共有两种解决的办法：

探索式开始法的意思就是：在多次抽取样本是，开头要保证所有的(s,a)对被用上。

随机策略保证每个(s,a)出现的概率大于0，也可以保证在多次试验中出现所有的(s,a)对。

其中，探索式开始法，不能很好处理实际的与环境交互的问题。随机策略的使用要更广泛一些。

阅读全文

1 0