强化学习基础（二）

来源：互联网发布：淘宝网鞋子女鞋编辑：程序博客网时间：2024/05/16 12:04

@(Machine Learning)

环境状态 Environment State

字面理解起来就是，用于表现环境信息数据，记号为Set。统通常来说，Set是agent不可见的。

而即便Set可见，它包含的信息对于agent来说有些也是无关的。

智能体状态 agent state

记作Sat，用于内在表示agent处于的状态。

这个信息用于RL算法。

同时，前面文章有讲到：

St=f(Ht)

这个St就是这里的Sat.

多啰嗦一下就是：

Sat=f(Ht)

Information State | Markov State

这个不确定怎么翻译为中文。不妨称作马尔可夫态。包含历史序列中所有有用的信息。

一个状态拥有马尔可夫性质，当且仅当：

P [S t + 1 | S t] = P [S t + 1 | S 1, S 2, . . ., S t]

这个数学条件概率表达式翻译成文字信息就是：

The future is independent of the past given the present.
给定现在的状态后，未来的状态将与过去无关。

用一个图示：

H 1 : t \to S t \to H t + 1 : \infty

t时刻以后的事情将仅仅由t时刻的状态决定。St像是阻断了过去，仿佛是过去心不可得，活在当下咯。

下面这句更加形象：

Once the state is known, the history maybe thrown away.

接下来会继续深入agent内部，来描述RL agent的必要组成部分。

阅读全文

1 0