Monto Carlo估计动作价值(action values)
来源:互联网 发布:windows longhorn开机 编辑:程序博客网 时间:2024/06/18 10:59
Monto Carlo估计动作价值(action values)
@(Machine Learning)
名词翻译
- action 行动,动作
- action values 动作价值
- state values 状态价值
- policy 策略
总体思路
总体的指导思路是:在Model未知时,估计动作价值要比估计状态价值要有用一些。
而当Model是已知的,仅仅利用状态价值就足够决定策略。
Model未知时,只有状态价值无法决定策略。
动作价值估计
必须估计出每一个行动的价值,才可以决定选出最优策略。而行动本身是in状态的。
–> 问题转化为估计
也就是说,需要知道每一个状态和行动的组合的价值。
问题
在取样中,不是所有的
比如说,在确定的策略下去估计行动价值,每一个状态下对应的行动选择是固定的,这样就像是选择了一条直接走到终点的路径,很多
而一旦很多
解决思路
共有两种解决的办法:
- exploring starts 探索式开始法
- 选用随机策略,保证每一个
(s,a) 的概率大于0
探索式开始法的意思就是:在多次抽取样本是,开头要保证所有的
随机策略保证每个
其中,探索式开始法,不能很好处理实际的与环境交互的问题。随机策略的使用要更广泛一些。
阅读全文
1 0
- Monto Carlo估计动作价值(action values)
- bootstrap估计和bootstrap估计的Monte Carlo近似
- Action 动作
- Action 动作
- Action 动作
- 动作Action
- 项目管理-软件价值估计
- Java Action 动作
- 动作指令Action
- Cocos2D常用动作(Action)
- cocos2dx-Action动作
- corejavaI---action(动作)
- cocos2dx-Action动作
- 第三讲 Action动作
- Cocos2Dx之动作Action
- cocos2dx-Action动作
- cocos2dx之动作Action
- Struts2 Action/动作
- kmalloc、vmalloc、malloc的区别
- bzoj 3404: [Usaco2009 Open]Cow Digit Game又见数字游戏(SG函数)
- 三道智力题
- POJ 2576 / Light OJ 1147 Tug of War 状态压缩DP
- APK瘦身——更全面的方案
- Monto Carlo估计动作价值(action values)
- 启动minicom时出现错误"Device /dev/ttyS0 is locked minicom"的解决办法
- 前端学习(六)回调,异步,非阻塞,事件驱动等知识
- vuex学习之路之出现的错误一
- 深入理解JVM(六)——类文件结构——code
- [模板]二维凸包(纯代码)
- 树的后序遍历方式源码
- (9)Javasript入门二
- 123