Reinforcement Learning学习笔记（一）综述

来源：互联网发布：数据统计方法有哪些编辑：程序博客网时间：2024/05/21 11:02

强化学习是机器学习的一大分支，随着alphaGo的巨大成功，其使用的强化学习方法也逐渐成为近年来的研究热点。个人理解强化学习与一般的机器学习主要有一下几点差别，既有优势又有不足。

1、传统机器学习需要大量的标注数据，在某些领域这些数据是难以获得或成本很高的。

2、传统机器学习在本质上有一个学习的对象，即expert，用以生成比较的真值以计算loss来驱动网络更新，但在一些领域并没有一个很好的expert，例如围棋，尽管人类已经钻研千年，但与Master相比依然有着巨大的差距，直接将人类的数据作为expert不仅有数据量可能不足的问题，还可能因为expert的水平不够而影响学习方向。（尽管传统的机器学习学得的结果也是可以超过expert的，但可以想见一旦从本质上超出太多则会因为loss的限制逆向传播）

3、虽然有着一些差别，但作为“学习”，其本质都是根据“比较”所产生的误差来更新参数，只不过传统机器学习的比较对象为expert，而强化学习的比较对象为“自己估计出的价值”（值学习），而自己估计出的价值的核心驱动力在于reward（当前reward加上未来可能得到的reward），而reward来自于自己的设计。

4、传统机器学习与强化学习的差别还可以算的上是思路方向上的差别，但加入“深度”则只是形式上的差别，在思路上并未有很大变化，只是用含有大量参数的神经网络去替代传统方法中一些非线性的函数，本质上依然是对函数：输入——>输出的参数调整来进行优化。

强化学习自上世纪就是年代提出以来，理论在不断的发展但核心变化不大，人们根据不同的需求设计出不同的模型，但最终目的都是为了解决问题。

阅读全文

1 0