强化学习的基础总结（一）

来源：互联网发布：如何在阿里云备案域名编辑：程序博客网时间：2024/06/08 05:05

@(Machine Learning)

机器学习从大类上来分，可以有三种：

现在关注强化学习。强化学习泛泛来说，是一种决策方法。

Q：强化学习的与众不同之处是什么？
A：有以下几点。

RL构建在奖励假说(reward hypothesis)上.

所谓的奖励假说是：

All goals can be described by the maximisation of expected cumulative reward.

如何评价一个智能体是好是坏是RL的一个核心问题。所以提出了RL问题的目标(goal)：最大化累计奖励。

所以，当思考强化学习算法时，要始终把这个核心问题放在优先位置进行考虑。一切问题也都由此出发：无论算法有多么不同，核心目标都是为了解决最大化累积奖励。

我们前面笼统地说了RL问题的核心目标，偏向抽象一些，而具体落实到算法上时，我们都用数学的方法来量化目标。

比如这里的方法是：选择一系列行为，最大化总的累计奖励。

遵循三个简单原则：

在RL系统中，agent和环境是两个大组成部分。

每一步，二者需要执行的动作是不同的。

agent：

environment:

一、历史

历史：是观察，动作，奖励的序列。

一般用数学式描述为：

H t = A 1, O 1, R 1, . . ., A t, O t, R t

表示到t时刻，所有的Ai,Oi,Ri序列。

那么有这个序列可以干嘛呢？

What happens next depends on the history.

联想到我们人类自身，每个人下一步要做什么，都是基于过去的经验集合的。

下一步要发生什么，有两个方面：

即：智能体选择行为集合 && 环境选择给予什么观察值和奖励值。

二、状态

状态是什么？状态是用来决定下一步要发生什么的信息。

单纯就这个定义来看，状态和刚刚说的历史序列很相似。那么为了深刻理解，就要找一找不同。

形式化定义出来是：

S t = f (H t)

表达是的t时刻的状态是到t时刻的历史序列的函数。

而状态又可以分为好几类，下一篇将会讲到这些类别的比较。

阅读全文

1 0