强化学习概述--甄景贤

来源：互联网发布：c语言逆波兰算法编辑：程序博客网时间：2024/05/16 09:26

1、什么是强化学习(What is reinforcement learning?)

Reinforcement learning 是机器学习里面的一个分支，特别善於控制一只能够在某个环境下自主行动的个体 (autonomous agent)，透过和环境之间的互动，例如 sensory perception 和 rewards，而不断改进它的行为。

听到强化学习，你脑里应该浮现一只曱甴那样的小昆虫，那就是 autonomous agent 的形象：

对「环境」(environment) 这概念，你应该想到像以下这经典游戏的迷宫：

包括有追捕你的怪物、和吃了会加分的食物（这些代表负值和正值的 rewards）。当然，实际应用的「环境」和「奖励」可以是抽象的，这游戏是一个很具体的例子。

2、输入／输出

reinforcement learning 的输入是：

状态 (States) = 环境，例如迷宫的每一格是一个 state
动作 (Actions) = 在每个状态下，有什么行动是容许的
奖励 (Rewards) = 进入每个状态时，能带来正面或负面的价值 (utility)

而输出就是：
方案 (Policy) = 在每个状态下，你会选择哪个行动？

於是这 4 个元素的 tuple （S，A，R，P）就构成了一个强化学习的系统。在抽象代数中我们常常用这 tuple 的方法去定义系统或结构。

再详细一点的例子就是：

states S = 迷宫中每一格的位置，可以用一对座标表示，例如(1,3)
actions A = 在迷宫中每一格，你可以行走的方向，例如：｛上，下，左，右｝
rewards R = 当前的状态 (current state) 之下，迷宫中的那格可能有食物 (+1) 、也可能有怪兽 (-100)
policy P = 一个由状态 → 行动的函数，意即：这函数对给定的每一个状态，都会给出一个行动。
（S, A, R）是使用者设定的， P 是算法自动计算出来的。

人与虫之间

第一个想到的问题是：为什么不用这个方法打造人工智能？但现时的强化学习算法，只对比较细小和简单的环境适用，对於大的复杂的世界，例如象棋的 10xxx 状态空间，仍是 intractable 的。

关键就是，高等智慧生物会在脑中建立世界的模型 (world model) 或知识 (knowledge)，而强化学习只是关心简单的「状态－行动」配对。

强化学习的领导研究者 Richard Sutton 认为，只有这种学习法才考虑到自主个体、环境、奖励等因素，所以它是人工智能中最 top-level 的 architecture，而其他人工智能的子系统，例如 logic 或 pattern recognition，都应该在它的控制之下，我觉得颇合理。

所以要制造 strong AI，一个可能的方案就是结合强化学习和某种处理复杂 world model 的能力：

「你们已经由虫进化成人，但在你们之内大部份仍是虫。」 – 尼采, Thus spoke Zarathustra

「如果人类不相信他们有一天会变成神，他们就肯定会变成虫。」 – Henry Miller 。

程式

学 AI 最紧要有 program，不然就会很枯燥。这是我在网上找到的一个特别简单的 demo，作者是 Travis DeWolf：

https://studywolf.wordpress.com/2012/11/25/reinforcement-learning-q-learning-and-exploration/

只要 Python 便可运行，但你可能要 install PyGame。

猫、老鼠、芝士：

猫的行动是简单地朝着老鼠追（没有智能），老鼠的行动是学习出来的。

注意，在 main program 和 cellular.py 这两部分，纯粹是定义了迷宫世界如何运作，基本上是一个 game，里面完全没有智能，你可以用｛上、下、左、右｝控制各 agent 的活动，如此而已。

强化学习的程式在 qlearn.py，很短，而真正学习的程式基本上只有一句，就是：

def learnQ(self, state, action, reward, value):oldv = self.q.get((state, action), None)if oldv is None:       self.q[(state, action)] = rewardelse:       self.q[(state, action)] = oldv + self.alpha * (value - oldv)

单是这一句程式，就能令老鼠学到避开猫、吃芝士。以下再解释……

3、強化學習的原理

AI－a modern approach》这本书第 21 章有很好的简介。《AIMA》自然是经典，很多人说他们是读这本书而爱上 AI 的。这本书好处是，用文字很耐性地解释所有概念和原理，思路很清晰，使读者不致有杂乱无章的感觉。例如 21 章首先讲 passive reinforcement learning，意思是当 policy 是固定时，纯粹计算一下 agent 期望的价值（utility，即 rewards 的总和）会是多少。有了这基础后再比较不同 policies 的好坏。这种思路在数学中很常见：首先考虑简单到连白痴也可以解决的 case，然后逐步引入更多的复杂性。例如数学归纳法，由 N=1 的 case 推到 N→∞ 。

为免重复，我只解释到明白 Q learning 的最少知识。

4、Utility (价值，或效)

U 是一连串行动的 rewards 的总和。例如说，行一步棋的效用，不单是那步棋当前的利益，还包括走那步棋之后带来的后果。例如，当下贪吃一只卒，但 10 步后可能被将死。又或者，眼前有美味的食物，但有些人选择不吃，因为怕吃了会变肥。

一个 state 的效用 U 就是：假设方案固定，考虑到未来所有可能的 transitions，从这个 state 开始的平均期望的 total reward 是多少 :

U(S0)=

阅读全文

0 0