Python机器学习笔记——强化学习

来源：互联网发布：linux 自动启动svn 编辑：程序博客网时间：2024/06/06 03:46

【啊啊啊强化学习真的啥都不懂……Orz】

智能体(agent)根据当前对环境的观察采取动作获得环境的反馈，并使环境发生改变的循环过程。

蒙特卡洛强化学习是一种不依赖于环境建模的学习算法，此类算法称为免模型学习。蒙特卡洛强化学习使用多次采样，然后求取平均累计奖赏作为期望累计奖赏的近似。

蒙特卡洛强化学习算法需要采样一个完整的轨迹来更新值函数，效率较低，此外该算法没有充分利用强化学习任务的序贯决策结构。Q-learning算法结合了动态规划与蒙特卡洛方法的思想，使得学习更加高效。

>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>

将神经网络(neuralnetwork)和Qlearning结合，利用神经网络近似模拟函数Q(s,a)，输入是问题的状态（e.g.图形），输出是每个动作a对应的Q值，然后依据Q值大小选择对应状态执行的动作，以完成控制。

卷积神经网络：把Image矩阵中的每个元素当做一个神经元，那么卷积核就相当于输入神经元和输出神经元之间的链接权重，由此构建而成的网络被称作卷积神经网络。

下图展示卷积操作：

阅读全文

0 0