程序博客网 > pic单片机开发环境iar

策略梯度（Policy Gradients）的理解

来源：互联网发布：pic单片机开发环境iar 编辑：程序博客网时间：2024/06/17 16:47

理论分析请参见参考文献1、2、6、7；算法思想及伪代码参见参考文献2，具体见下图：

这里写图片描述

policy gradient 的最基本方法-REINFORCE 方法

然后根据理论分析了莫烦的《Policy Gradients 算法更新 (Tensorflow)》和《Policy Gradients 思维决策 (Tensorflow)》，有了进一步理解。

参考文献7、8可能有用，先留着

参考文献：

1.Tutorial： Deep Reinforcement Learning P45-48
2.Lecture 7 Policy Gradient Methods P21
3.Deep Reinforcement Learning: Pong from Pixels
4.深度强化学习：基于像素的乒乓游戏
5.基于Policy Gradient实现CartPole
6.reinforcement learning，增强学习：Policy Gradient
7.深度增强学习David Silver（七）——Policy Gradient
8.基于tensorflow的最简单的强化学习入门-part2: Policy-based Agents
9.实现强化学习策略网络

阅读全文

0 0

pic单片机开发环境iar

pic单片机开发环境iar

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子硝酸酯类药包括哪些酯类全合成机油胆碱酯酶14000严重吗胆碱酯酶低血清胆碱酯酶白细胞酯酶2十胆碱酯酶太高达到13500怎么办白细胞酯酶十什么意思磷酸二酯酶白细胞酯酶3十严重吗胆碱酯酶正常值胆碱酯酶高的危害白细胞酯酶2+ 胆碱酯酶低是怎么回事血清胆碱酯酶偏高白细胞酯酶阳性是什么意思胆碱酯酶偏高有危险吗胆碱酯酶低怎么快速补白细胞酶酯阳性是什么胆碱酯酶正常值是多少胆碱酯酶低会慢慢好吗酯键磷酸二酯键位置图 35磷酸二酯键酰乙酰酰怎么读二丁酰环磷腺苷钙乙酰天麻素片乙酰胆碱作用乙酰半胱氨酸片乙xian酰半胱氨酸颗粒富露施乙酰半胱氨酸乙酰半胱氨酸雾化月桂酰肌氨酸钠乙酰麦迪霉素干混悬剂乙酰半胱氨酸胶囊富露施乙酰半胱氨酸颗粒美力泰乙酰麦迪霉素干混悬剂酰基酰氯