[ML]强化学习
来源:互联网 发布:手机单机小游戏知乎 编辑:程序博客网 时间:2024/05/13 23:28
我们想一下一个场景:驯兽师对海豚进行训练,使得海豚可以进行:起立——上台阶——跳跃——投篮——投中这一系列动作,并对海豚的每一个动作给予奖赏。所以海豚需要学习摸索,如何才能得到最高的奖赏。对海豚而言,每次动作得到的奖赏不同,海豚需要从驯兽师给的反馈中,总结出一套策略,针对每一个状态选择一个最优的动作,使得最终获得的奖赏最高。这就是强化学习。
强化学习任务可用四元组来表示
1,状态空间
2,动作空间
3,当前状态为
4,奖励函数
以上过程是一个马尔科夫决策过程(Markov Decision Process,MDP)。
机器在这个学习过程中,可以作为的是根据当前状态和收到的反馈选择动作。从机器的角度来看,环境的状态是客观存在的,状态的转移也是客观的,收到的奖赏也是客观被决定了的。机器可以做的就是选择动作来影响其所处环境,并通过观察动作后的状态和收到的反馈来感知环境。
机器就是不断地尝试和反馈中,学习到一个策略,定义为
强化学习同监督学习有很大不同。监督学习有标记样本提高信息,可供机器去学习。强化学习没有任何标记样本可以利用,也没有人告诉机器在何种状态下改采取何种动作,甚至不知道当前动作对最终奖赏的影响,也仅能得到一个当前局部反馈。只有等最终结果揭晓,才知道之前所采取的动作对最终结果是有利还是不利的。机器只有通过多次尝试来发觉不同动作所带来的结果。
- [ML]强化学习
- .强化学习
- 强化学习
- 强化学习
- 强化学习
- 强化学习
- 强化学习
- 强化学习
- 强化学习
- 强化学习
- 强化学习
- 强化学习
- 强化学习
- 强化学习,深度学习,深度强化学习
- Q-学习:强化学习
- nlp, ml, 学习书单
- spark ml 学习资料
- ML 02、监督学习
- 国内技术社区活跃的 Android 大神汇总
- git一次push异常
- B1010. 一元多项式求导 (25')
- nyoj116 士兵杀敌(二) (树状数组)
- HDR
- [ML]强化学习
- 解决安卓端虚拟按键盖住输入框的方法
- numpy学习笔记-唯一化
- css伪类之input输入框鼠标点击边框变色效果
- 解决iframe作为子窗口,刷新后iframe页面跳转到其它页面的问题
- python生成opencv正样本和负样本描述文件
- Android 选择图片、上传图片
- 设计模式之适配器模式
- A hard Aoshu Problem HDU