增强学习
来源:互联网 发布:复合材料的刚度矩阵 编辑:程序博客网 时间:2024/05/17 06:44
1 value iteration
for i in max-iteration:
for j in states:
v[j] = max(r[j,a] + sum(p(j'|j,a)* v[j'])
2 policy iteration
for i in max-iteration:
policy-evaluation
(迭代计算v [state]直至稳定,采取的action已知)
policy-improvement
(依次更新each state对应的action,每次取最优值)
3 model based learning
for i in max-iteration:
1)follow policy pi, get transition list as history
2) calculate reward, transition probability from history, and get P(state, prob,action,next_state)
3) update policy using value iteration
阅读全文
0 0
- 增强学习
- 增强学习
- 增强学习
- 增强学习
- 增强学习
- 增强学习
- 增强学习
- 学习笔记-增强学习
- Q-学习:增强学习
- 【增强学习】Torch中的增强学习层
- 增强学习 (reinforcement learning)
- 13.增强学习
- 学习笔记:方法增强
- 增强学习资料集锦
- 学习/记忆力的增强
- 深度学习--数据增强
- 浅谈增强学习
- 增强学习论文记录
- 发善贾而沽哈爱人
- stdarg.h简介
- Application Insights使用
- Delphi winsock函数解析(一)
- 记一次RSA非对称算法的排坑经历
- 增强学习
- codeforces 883 I. Photo Processing(dp+二分)
- Struts2和spring mvc的区别
- AngularJS学习总结
- Date日期验证及获取
- Python学习笔记—常用库简介
- Java学习笔记1
- luarocks install audio 艰辛安装之路
- 任学堂---人工智能真的来了,这些职业会消失!生活也会发生翻天覆地的变化