强化学习的基础总结(一)

来源:互联网 发布:如何在阿里云备案域名 编辑:程序博客网 时间:2024/06/08 05:05

强化学习的基础总结(一)

@(Machine Learning)

机器学习从大类上来分,可以有三种:

  • 监督学习
  • 无监督学习
  • 强化学习

现在关注强化学习。强化学习泛泛来说,是一种决策方法

Q:强化学习的与众不同之处是什么?
A:有以下几点。

  • 无监督。只有奖励信号。而不是监督学习中的标记空间。
  • 延迟反馈。奖励系统针对的是行为(action),是一种对动态的评价。
  • 时间很重要。强化学习是用连续型数据,而不是独立同分布的数据。
  • agent的行为影响受到的子序列数据。即:不同的action可以推导出不同的数据序列。

强化学习构建基础

RL构建在奖励假说(reward hypothesis)上.

所谓的奖励假说是:

All goals can be described by the maximisation of expected cumulative reward.

如何评价一个智能体是好是坏是RL的一个核心问题。所以提出了RL问题的目标(goal):最大化累计奖励。

所以,当思考强化学习算法时,要始终把这个核心问题放在优先位置进行考虑。一切问题也都由此出发:无论算法有多么不同,核心目标都是为了解决最大化累积奖励。

序贯判定(sequential decision making)

我们前面笼统地说了RL问题的核心目标,偏向抽象一些,而具体落实到算法上时,我们都用数学的方法来量化目标。

比如这里的方法是:选择一系列行为,最大化总的累计奖励。

遵循三个简单原则:

  • 行为可能有长远的影响(当前可能不带来最优效益甚至是于收益有损)
  • 奖励有延迟
  • 牺牲短期利益获得长期利益会更好

智能体和环境(Agent and Environment)

在RL系统中,agent和环境是两个大组成部分。

每一步,二者需要执行的动作是不同的。

agent:

  • 执行At
  • 接收观察值Ot
  • 接收标量奖励Rt

environment:

  • 接收At
  • 发出信号供agent观察:Ot
  • 反馈标量奖励值Rt

历史和状态(History and State)

一、 历史

历史:是观察,动作,奖励的序列。

一般用数学式描述为:

Ht=A1,O1,R1,...,At,Ot,Rt

表示到t时刻,所有的Ai,Oi,Ri序列。

那么有这个序列可以干嘛呢?

What happens next depends on the history.

联想到我们人类自身,每个人下一步要做什么,都是基于过去的经验集合的。

下一步要发生什么,有两个方面:

  • agent selects actions
  • environment selects observations/rewards

即:智能体选择行为集合 && 环境选择给予什么观察值和奖励值。

二、状态

状态是什么?状态是用来决定下一步要发生什么的信息。

单纯就这个定义来看,状态和刚刚说的历史序列很相似。那么为了深刻理解,就要找一找不同。

形式化定义出来是:

St=f(Ht)

表达是的t时刻的状态是到t时刻的历史序列的函数。

而状态又可以分为好几类,下一篇将会讲到这些类别的比较。

原创粉丝点击