优达（Udacity）smartcab

来源：互联网发布：泰国国王科技大学知乎编辑：程序博客网时间：2024/06/07 04:37

github链接

机器学习工程师纳米学位

强化学习

项目 4: 训练智能出租车学会驾驶

欢迎来到机器学习工程师纳米学位的第四个项目！在这个notebook文件中，模板代码已经提供给你，有助于你对智能出租车的分析和实现学习算法。你无须改动已包含的代码，除非另有要求。你需要回答notebook文件中给出的与项目或可视化相关的问题。每一个你要回答的问题前都会冠以‘问题 X’。仔细阅读每个问题，并在后面‘回答’文本框内给出完整的回答。你提交的项目会根据你对于每个问题的回答以及提交的agent.py的实现来进行评分。

提示： Code 和 Markdown 单元格可通过 Shift + Enter 快捷键来执行。此外，Markdown可以通过双击进入编辑模式。

开始

在这个项目中，你将构建一个优化的Q-Learning驾驶代理程序，它会操纵智能出租车 通过它的周边环境到达目的地。因为人们期望智能出租车要将乘客从一个地方载到另一个地方，驾驶代理程序会以两个非常重要的指标来评价：安全性和可靠性。驾驶代理程序在红灯亮时仍然让智能出租车行驶往目的地或者勉强避开事故会被认为是不安全的。类似的，驾驶代理程序频繁地不能适时地到达目的地会被认为不可靠。最大化驾驶代理程序的安全性和可靠性保证了智能出租车会在交通行业获得长期的地位。

安全性和可靠性用字母等级来评估，如下：

等级安全性可靠性 A+ 代理程序没有任何妨害交通的行为，
并且总是能选择正确的行动。代理程序在合理时间内到达目的地的次数
占行驶次数的100%。 A 代理程序有很少的轻微妨害交通的行为，
如绿灯时未能移动。代理程序在合理时间内到达目的地的次数
占行驶次数的90%。 B 代理程序频繁地有轻微妨害交通行为，
如绿灯时未能移动。代理程序在合理时间内到达目的地的次数
占行驶次数的80%。 C 代理程序有至少一次重大的妨害交通行为，
如闯红灯。代理程序在合理时间内到达目的地的次数
占行驶次数的70%。 D 代理程序造成了至少一次轻微事故，
如绿灯时在对面有车辆情况下左转。代理程序在合理时间内到达目的地的次数
占行驶次数的60%。 F 代理程序造成了至少一次重大事故，
如有交叉车流时闯红灯。代理程序在合理时间内到达目的地的次数
未能达到行驶次数的60%。

为了协助评估这些重要的指标，你会需要加载可视化模块的代码，会在之后的项目中用到。运行下面的代码格来导入这个代码，你的分析中会需要它。

# 检查你的Python版本from sys import version_infoif version_info.major != 2 and version_info.minor != 7:    raise Exception('请使用Python 2.7来完成此项目')

# Import the visualization codeimport visuals as vs# Pretty display for notebooks%matplotlib inline

了解世界

在开始实现你的驾驶代理程序前，首先需要了解智能出租车和驾驶代理程序运行的这个世界（环境）。构建自我学习的代理程序重要的组成部分之一就是了解代理程序的特征，包括代理程序如何运作。原样直接运行agent.py代理程序的代码，不需要做任何额外的修改。让结果模拟运行一段时间，以观察各个不同的工作模块。注意在可视化模拟程序（如果启用了），白色车辆就是智能出租车。

问题 1

用几句话，描述在运行默认的agent.py代理程序中，你在模拟程序里观察到了什么。一些你可以考虑的情况：

在模拟过程中，智能出租车究竟移动了吗？
驾驶代理程序获得了什么样的奖励？
交通灯的颜色改变是如何影响奖励的？

提示： 从顶层的/smartcab/目录（这个notebook所在的地方），运行命令

'python smartcab/agent.py'

回答：

没有移动
奖励是一个正数或者负数
当交通灯为红色，禁止行动的时候，由于车没有移动，所以奖励为正数，当交通灯改变可以行驶的时候，车没有移动奖励为负数

理解代码

除了要了解世界之外，还需要理解掌管世界、模拟程序等等如何运作的代码本身。如果一点也不去探索一下“隐藏”的器件，就试着去创建一个驾驶代理程序会很难。在顶层的/smartcab/的目录下，有两个文件夹：/logs/ （之后会用到）和/smartcab/。打开/smartcab/文件夹，探索每个下面的Python文件，然后回答下面的问题。

问题 2

在agent.py* Python文件里，选择 3 个可以设定的 flag，并描述他们如何改变模拟程序的。*
在environment.py* Python文件里，当代理程序执行一个行动时，调用哪个Environment类的函数？*
在simulator.py* Python 文件里，'render_text()'函数和'render()'函数之间的区别是什么?*
在planner.py* Python文件里，'next_waypoint() 函数会先考虑南北方向还是东西方向?*

回答：

agent.py
- learning：设置为True之后会强制驾驶代理程序使用Q-learning来学习
- epsilon：探索因子值，默认为1，比如epsilon=0.9，说明90%的可能性会选择之前学习的最好方式行驶，10%的可能性会自行进行新的探索，以取得更好的驾驶方案
- alpha：学习率，默认是0.5，alpha越大，之前训练的效果就保留的越少，新训练出的奖励值占的比重就越大
environment.py
- act函数
simulator.py
- render_text()函数是不用GUI进行渲染，使用终端命令行输出模拟器训练的数据，render()函数是使用GUI来进行渲染界面显示
planner.py
- 先考虑东西方向

实现一个基本的驾驶代理程序

创建一个优化Q-Learning的驾驶代理程序的第一步，是让代理程序确实地执行有效的行动。在这个情况下，一个有效的行动是None（不做任何行动）、'Left'（左转）、'Right'（右转）或者'Forward'（前进）。作为你的第一个实现，到'choose_action()'代理程序函数，使驾驶代理程序随机选择其中的一个动作。注意你会访问到几个类的成员变量，它们有助于你编写这个功能，比如'self.learning'和'self.valid_actions'。实现后，运行几次代理程序文件和模拟程序来确认你的驾驶代理程序每步都执行随机的动作。

基本代理程序模拟结果

要从最初的模拟程序获得结果，你需要调整下面的标志：

'enforce_deadline' - 将此标志设定为True来强制驾驶代理程序捕获它是否在合理时间内到达目的地。
'update_delay' - 将此标志设定为较小数值（比如0.01）来减少每次试验中每步之间的时间。
'log_metrics' - 将此标志设定为True将模拟结果记录为在/logs/目录下的.csv文件。
'n_test' - 将此标志设定为'10'则执行10次测试试验。

可选的，你还可以通过将'display'标志设定为False来禁用可视化模拟（可以使得试验跑得更快）。调试时，设定的标志会返回到他们的默认设定。重要的是要理解每个标志以及它们如何影响到模拟。

你成功完成了最初的模拟后（有20个训练试验和10个测试试验），运行下面的代码单元格来使结果可视化。注意运行同样的模拟时，日志文件会被覆写，所以留意被载入的日志文件！在 projects/smartcab 下运行 agent.py 文件。

# Load the 'sim_no-learning' log file from the initial simulation resultsvs.plot_trials('sim_no-learning.csv')

这里写图片描述

问题 3

利用上面的从你初始模拟中得到的可视化结果，给出关于驾驶代理程序的分析和若干观察。确保对于可视化结果上的每个面板你至少给出一条观察结果。你可以考虑的一些情况：

驾驶代理程序多频繁地做出不良决策？有多少不良决策造成了事故？
假定代理程序是随机驾驶，那么可靠率是否合理？
代理程序对于它的行动会获得什么样的奖励？奖励是否表明了它收到严重的惩罚？
随着试验数增加，结果输出是否有重大变化？
这个智能出租车对于乘客来说，会被人为是安全的且/或可靠的吗？为什么或者为什么不？

答案：

基本都在0.4左右，不知道是不是可以理解成40%，还有就是为什么x轴是从10开始的。轻微事故在0.04左右，严重事故在0.06左右
合理，随机驾驶的确是没有学习到任何东西而且都是事故
如果是不造成事故和违反交通规则的行动，那么会给出正数奖励，反之则是负数。奖励可以表明收到了严重的惩罚
没有，因为都是随机的
不安全也不可靠，因为经常违反交通规则发生事故

通知驾驶代理程序

创建一个优化Q-Learning的驾驶代理程序的第二步，是定义一系列代理程序会在环境中发生的状态。根据输入、感知数据和驾驶代理程序可用的变量，可以为代理程序定义一系列状态，使它最终可以学习在一个状态下它需要执行哪个动作。对于每个状态的'如果这个处于这个状态就那个行动'的状况称为策略，就是最终驾驶代理程序要学习的。没有定义状态，驾驶代理程序就不会明白哪个动作是最优的——或者甚至不会明白它要关注哪个环境变量和条件！

识别状态

查看'build_state()'代理程序函数，它显示驾驶代理函数可以从环境中获得下列数据：

'waypoint'，智能出租车去向目的地应该行驶的方向，它是智能出租车车头方向的相对值。
'inputs'，智能出租车的感知器数据。它包括
- 'light'，交通灯颜色。
- 'left'，智能出租车左侧车辆的目的方向。如果没有车辆，则返回None。
- 'right'，智能出租车右侧车辆的目的方向。如果没有车辆，则返回None。
- 'oncoming'，智能出租车交叉方向车辆的目的方向。如果没有车辆，则返回None。
'deadline'，智能出租车在时间之内到达目的地还所需的剩余动作数目。

问题 4

代理程序的哪些可用特征与学习安全性和效率相关性最高？你为什么认为这些特征适合在环境中对智能出租车建模？如果你没有选择某些特征，放弃他们的原因是什么？

回答：

waypoint、inputs中的属性，原因如下：
- waypoint：来判断下一步是否是正确的行驶方向，最后到达目的地
- inputs：
  - light：交通灯的颜色决定了智能车的行为是否会造成违章
  - left：左侧的车根据交通规则增加了行驶条件，如果左侧有车要前进当前为红灯时，智能车不允许右转
  - right：右侧的车根据交通规则增加了行驶条件，如果闯红灯时右侧的车正在前行，那么应该得到更大的惩罚值，所以应该考虑进去
  - oncoming：对面的车根据交通规则增加了行驶条件，如果对面的车前进，智能车不允许左转
放弃的原因：
- deadline的选择对建模没有作用，剩余动作数并不能对智能车做出奖励还是惩罚，并且上面选择的状态空间已经达到了384个，如果再加上deadline的话，Q表会非常的大，把所有状态都经历过势必要训练很长的时间，得不偿失

定义状态空间

当定义一系列代理程序会处于的状态，必需考虑状态空间的大小。就是说，如果你期望驾驶代理程序针对每个状态都学习一个策略，你会需要对于每一个代理状态都有一个最优的动作。如果所有可能状态的数量非常大，最后会变成这样的状况，驾驶代理程序对于某些状态学不到如何行动，会导致未学习过的决策。例如，考虑用下面的特征定义智能出租车的状态的情况：

('is_raining', 'is_foggy', 'is_red_light', 'turn_left', 'no_traffic', 'previous_turn_left', 'time_of_day').
发生如(False, True, True, True, False, False, '3AM')的状态的频次如何？没有近乎无限数量的训练，很怀疑代理程序会学到一个合适的动作！

问题 5

如果用你在问题4中选择的特征来定义一个状态，状态空间的大小是多少？假定你了解环境以及它是如何模拟的，你觉得经过合理数量的训练之后，代理驾驶能学到一个较好的策略吗？（遇见绝大部分状态都能作出正确决策。）
提示： 考虑特征组合来计算状态的总数！

回答：

特征状态数状态 waypoint 3 farword、left、right inputs：light 2 red、green inputs：left 4 None、forward、left、right inputs：right 4 None、forward、left、right inputs：oncoming 4 None、forward、left、right

- 3×2×4×4×4 = 384，状态空间大小是384

下一步动作有四个，分别是 None、forward、left、right，Q-table情况大概如下：

None forward left right waypoint inputs：light inputs：left inputs：right inputs：oncoming

所以一共有384行，4列，384×4=1536，Q-table的大小是1536
在这样一个密度下，经过训练之后能学到一个较好的策略，如果考虑同一个状态需要几次训练才能分出优劣的话，每次训练由于出发地和目的地的不确定，都会遇到一些场景和状态，随着次数的推移遇到的新场景和状态会变少，所以我觉得至少数量级也要达到1500才能保证大部分状态基本被覆盖了

更新驾驶代理程序的状态

要完成你的第二个实现，去到'build_state()'代理程序函数。根据你在问题4给出的判断，你现在要将'state'变量设定为包含所有Q-Learning所需特征的元组。确认你的驾驶代理程序通过运行代理程序文件和模拟会更新它的状态，注意状态是否显示了。如果用了可视化模拟，确认更新的状态和在模拟程序里看到的一致。

注意： 观察时记住重置模拟程序的标志到默认设定！

实现Q-Learning驾驶代理程序

创建一个优化Q-Learning的驾驶代理程序的第三步，是开始实现Q-Learning自身的功能。Q-Learning的概念相当直接：每个访问的状态，为所有可用的状态-行动配对在Q-table里创建一条记录。然后，当代理程序遇到一个状态并执行了一个动作，基于获得的奖励和设定的相互的更新规则，来更新关联的状态-动作配对的Q-value。当然，Q-Learning还带来其他的收益，如此我们可以让代理程序根据每个可能的状态-动作配对的Q-values，来为每个状态选择最佳动作。在这个项目里，你会实现一个衰减 ϵ -贪心 的Q-learning算法，不含折扣因子。遵从每个代理程序函数的TODO下的实现指导。

注意代理程序的属性self.Q是一个字典：这就是Q-table的构成。每个状态是self.Q字典的键，每个值是另一个字典，包含了action和Q-value。这里是个样例：

{ 'state-1': {     'action-1' : Qvalue-1,    'action-2' : Qvalue-2,     ...   },  'state-2': {    'action-1' : Qvalue-1,     ...   },   ...}

此外，注意你要求利用一个衰减ϵ（探索）因子。因此，随着试验的增加，ϵ会向0减小。这是因为，代理程序会从它的行为中学习，然后根据习得的行为行动。而且当ϵ达到特定阈值后（默认阈值为0.01），代理程序被以它所学到的东西来作检测。作为初始的Q-Learning实现，你将实现一个线性衰减ϵ的函数。

Q-Learning模拟结果

要从最初的Q-learning程序获得结果，你需要调整下面的标志和设置：

'enforce_deadline' - 将此标志设定为True来强制驾驶代理程序捕获它是否在合理时间内到达目的地。
'update_delay' - 将此标志设定为较小数值（比如0.01）来减少每次试验中每步之间的时间。
'log_metrics' - 将此标志设定为True将模拟结果记录为在/logs/目录下的.csv文件，Q-table存为.txt文件。
'n_test' - 将此标志设定为'10'则执行10次测试试验。
'learning' - 将此标志设定为'True'来告诉驾驶代理使用你的Q-Learning实现。

此外，使用下面的ϵ衰减函数：

ϵ t + 1 = ϵ t - 0.05, for trial number t

如果你在实施时遇到困难，尝试把'verbose'标志设为True来调试。调试时，在这里设定的标志会返回到它们的默认设定。重要的是你要理解每个标志做什么并且解释它们怎么影响模拟！

当你成功完成初始的Q-Learning模拟程序后，运行下面代码单元格来使结果可视化。注意当相同的模拟运行时，log文件会被覆写，所以要留意载入的log文件！

# Load the 'sim_default-learning' file from the default Q-Learning simulationvs.plot_trials('sim_default-learning.csv')

这里写图片描述

问题 6

利用上面的从你默认的Q-Learning模拟中得到的可视化结果，像在问题3那样，给出关于驾驶代理程序的分析和若干观察。注意模拟程序应该也产生了Q-table存在一个文本文件中，可以帮到你观察代理程序的算法。你可以考虑的一些情况：

有没有观察到基本驾驶代理程序和默认的Q-Learning代理程序的相似之处？
在测试之前驾驶代理大约需要做多少训练试验？在给定的ϵ 容忍度下，这个数字是否合理？
你实现的ϵ（探索因子）衰减函数是否准确地在参数面板中显示？
随着试验数增加，不良动作的数目是否减少?平均奖励是否增加？
与初始的驾驶代理程序相比，安全性和可靠性评分怎样？

回答：

和之前驾驶相比，Q-Learning取得了很大的进步，违反交通规则和交通事故的行为都降低了，意外事故也减少了，可靠性提高到了40%左右，也是很大的进步
需要做20个训练实验，epsilon每次下降0.05，20次训练正好就可以从1下降到0，0

改进Q-Learning驾驶代理程序

创建一个优化Q-Learning的驾驶代理程序的第三步，是执行优化！现在Q-Learning算法已经实现并且驾驶代理程序已经成功学习了，需要调整设定、调节参数让驾驶代理程序学习安全性和效率。通常这一步需要很多试验和错误，因为某些设定必定会造成更糟糕的学习。要记住的一件事是学习的行为本身和需要的时间：理论上，我们可以允许代理程序用非常非常长的时间来学习；然而，Q-Learning另一个目的是将没有习得行为的试验试验变为有习得行为的行动。例如，训练中总让代理程序执行随机动作（如果ϵ=1并且永不衰减）当然可以使它学习，但是不会让它行动。当改进你的Q-Learning实现时，要考虑做一个特定的调整的意义，以及它是否逻辑上是否合理。

改进Q-Learning的模拟结果

要从最初的Q-learning程序获得结果，你需要调整下面的标志和设置：

'enforce_deadline' - 将此标志设定为True来强制驾驶代理程序捕获它是否在合理时间内到达目的地。
'update_delay' - 将此标志设定为较小数值（比如0.01）来减少每次试验中每步之间的时间。
'log_metrics' - 将此标志设定为True将模拟结果记录为在/logs/目录下的.csv文件，Q-table存为.txt文件。
'learning' - 将此标志设定为'True'来告诉驾驶代理使用你的Q-Learning实现。
'optimized' - 将此标志设定为'True'来告诉驾驶代理你在执行一个优化版本的Q-Learning实现。

优化Q-Learning代理程序可以调整的额外的标志：

'n_test' - 将此标志设定为某个正数（之前是10）来执行那么多次测试试验。
'alpha' - 将此标志设定为0 - 1之间的实数来调整Q-Learning算法的学习率。
'epsilon' - 将此标志设定为0 - 1之间的实数来调整Q-Learning算法的起始探索因子。
'tolerance' - 将此标志设定为某个较小的大于0的值（默认是0.05）来设定测试的epsilon阈值。

此外，使用一个你选择的ϵ (探索因子)衰减函数。注意无论你用哪个函数，一定要以合理的速率衰减到'tolerance'。Q-Learning代理程序到此才可以开始测试。某个衰减函数的例子(t是试验的数目)：

ϵ = a t, for 0 < a < 1 ϵ = 1 t 2 ϵ = e - a t, for 0 < a < 1 ϵ = cos (a t), for 0 < a < 1

如果你想的话，你也可以使用α （学习率）的衰减函数，当然这通常比较少见。如果你这么做了，确保它满足不等式0≤α≤1。
如果你在实施时遇到困难，尝试把'verbose'标志设为True来调试。调试时，在这里设定的标志会返回到它们的默认设定。重要的是你要理解每个标志做什么并且解释它们怎么影响模拟！

当你成功完成初始的Q-Learning模拟程序后，运行下面代码单元格来使结果可视化，请注意为了达到项目要求你需要在安全性和可靠性上获得至少都为A的评分。注意当相同的模拟运行时，log文件会被覆写，所以要留意载入的log文件！

# Load the 'sim_improved-learning' file from the improved Q-Learning simulationvs.plot_trials('sim_improved-learning.csv')print("epsilon = COS(0.0157*t), alpha=0.5, tolerance=0.05，test=100")

这里写图片描述

epsilon = COS(0.0157*t), alpha=0.5, tolerance=0.05，test=100

# Load the 'sim_improved-learning' file from the improved Q-Learning simulationvs.plot_trials('sim_improved-learning.csv')print("epsilon = COS(0.00157*t), alpha=0.5, tolerance=0.05，test=100")

这里写图片描述

epsilon = COS(0.00157*t), alpha=0.5, tolerance=0.05，test=100

# Load the 'sim_improved-learning' file from the improved Q-Learning simulationvs.plot_trials('sim_improved-learning.csv')print("epsilon = COS(0.001047*t), alpha=0.5, tolerance=0.05，test=100")

这里写图片描述

epsilon = COS(0.001047*t), alpha=0.5, tolerance=0.05，test=100

问题7

利用上面的从你改进的Q-Learning模拟中得到的可视化结果，像在问题6那样，给出关于改进的驾驶代理程序的最终分析和观察。你需要回答的问题：

使用了什么epsilon（探索因子）的衰减函数？
在测试之前驾驶代理大约需要做多少训练试验？
你用了什么epsilon-tolerance和alpha（学习率）值？为什么？
与之前的默认Q-Learning学习器相比，这个Q-Learning学习器有多少改进？
你会说Q-Learning学习器的结果表明了你的驾驶代理程序成功地学习了一个合适的策略吗？
你对智能出租车的安全性和可靠性评分满意吗？

回答：

序号 Q-Learning 衰减函数 Alpha Tolerance 安全指标可靠指标 n_test 1

ϵ = 1 t 2

0.5 0.0001 F D 10 2

ϵ = 1 t 2

0.95 0.00005 D C 10 3

ϵ = 1 t 2

0.7 0.0001 F A 10 4

ϵ = A B S (C O S (a t))

0.5 0.05 F F 10 5

ϵ = A B S (C O S (a t))

0.01 0.001 F A 10 6

ϵ = C O S (0.0157 * t))

0.5 0.05 F B 100 7

ϵ = C O S (0.00157 * t))

0.5 0.05 A+ A 100 8 final

ϵ = C O S (0.001047 * t))

0.5 0.05 A+ A 100

使用ϵ=COS(0.001047∗t)，采用alpha=0.5，大概需要训练1500次，基本覆盖了大部分状态，即可得到较好的效果
- 使用ϵ=COS(0.001047∗t)的优点在于，epsilon是单调变化的，并且曲线保证了前期能够尽可能的探索学习，越到后来学习的越少，也正好符合Q-Learning的这个规律，而像ϵ=1t2这个函数衰减过快，没学到很多东西时就探索变得过少，导致了训练次数的增加，ϵ=ABS(COS(at))这个函数反复震荡，不符合Q-Learning的学习要求，应该是探索从多到少这样的过程
用的所有参数如上表所示，主要是在做控制变量实验，看什么情况下曲线更好，需要训练的次数更少能达到效果
- tolerance和衰减函数控制了训练的次数，只要训练的次数足够多将各种状态遇到基本就可以达到较好的训练效果
- alpha平衡了已有经验和新的探索对智能车行动的影响，理论上最开始的时候alpha应该尽量大，去更多探索，后来递减，使用过去的经验
最后选择了7号参数，和之前的学习器比无论是安全性还是可靠性都提高了非常多
结果表明成功的学习了一个合适的策略
对结果比较满意（最下方附上了其他实验的图片）

定义一个最优策略

有时，对于重要的问题“我要让我的代理程序学习什么？”的答案，只是理论性的，无法具体描述。然而这里，你可以具体定义代理程序要学什么，就是美国通行权交通法案。这些法律是已知信息，你可以基于这些法律，为智能出租车进一步定义每一个状态所做的最优动作。在那种情况下，我们称这一系列最优状态-动作配对为最优策略。因此，不像那些理论性的回答，不仅通过收到的奖励（惩罚），而且纯观察，代理程序是否在“错误”地行动能很清晰地得知。如果代理程序闯了红灯，我们既看见它获得了一个负面奖励，也知道这是一个错误的行为。这可以用来帮你验证驾驶代理程序习得的策略是否正确，或只是个次优策略。

问题 8

给出几个关于最优策略是什么样子的例子（用你已定义的状态）。之后，查看'sim_improved-learning.txt'文本文件，看你的改进的Q-Learning算法的结果。每个从模拟中纪录的状态，对于给定的状态，策略（得分最高的动作）是否正确？是否对于有些状态，有策略不同于预期的最优策略？给出一个状态和记录的状态-动作的奖励，解释为什么正是个正确的策略。

回答：

宏观上最佳策略就是在保证安全性的情况下用最少的步骤到达目的地，由于训练之后大部分状态都遇到过，所以安全性的问题有所保障，不会出违反交通规则和出交通事故的情况，除此之外，最佳策略也是希望智能车能够把握自己的大方向，随机应变，智能的接近目的地。
- 比如说下一步需要直行但是遇到了红灯，这个时候停留在原地None的行为指标就应该时最好的。
- 或者下一步需要向右转但是遇到了红灯，左侧的车如果直行，那么None的行为指标是最好的，而不是Right
是正确的。

('right', 'red', 'forward', None, 'forward') -- forward : -39.59 -- right : -19.85 -- None : 1.94 -- left : -38.35

上面数据表示，应该向右转，当前为红灯，左侧的车要直行，右侧的车不动，对面的车要直行，因为右转让左侧车直行，所以虽然此处等待是最优策略，右转会出交通事故，所以是负数，而直行和左转既会出交通事故又不遵守交通规则，是最危险的，所以是负数，且比右转的值还要小

('left', 'red', 'right', None, 'left') -- forward : -9.73 -- right : 1.21 -- None : 2.54 -- left : -9.55

上面数据表示，应该向左转，当前为红灯，左侧的车要右转，右侧的车不动，对面的车要左转，因为是红灯并且要左转，所以等待是权重最高的也就是2.54，右转是不违反交通规则的，虽然不符合预期，但是不会出事故，所以权值为正数且小于None为1.21，直行和左转都是违反交通规则的，所以都是负数

('forward', 'red', 'left', 'forward', 'right') -- forward : -29.41 -- right : 0.00 -- None : 1.51 -- left : -29.87

上面数据表示，应该直行，当前为红灯，左侧的车要左转，右侧的车要直行，对面的车要右转，因为是红灯并且要直行，所以等待是权重最高的也就是1.51，右转是不违反交通规则的，虽然不符合预期，但是不会出事故，所以权值小于None为0.00，直行和左转都是违反交通规则的，所以都是负数

选做：未来奖励 - 折扣因子 `'gamma'`

也许你会好奇，作为Q-Learning算法的一部分，之前要求你在实现中不要使用折扣引子'gamma'。在算法中包含未来奖励能有助于在未来状态回溯到当前状态时的反向正面奖励。本质上，如果给予驾驶代理程序执行若干动作到达不同状态的选择，包含未来奖励会是代理程序偏向可以得到更多奖励的状态。一个例子是驶向目的的驾驶代理程序：所有行动和奖励都相等，那么理论上如果到达目的地会有额外奖励，驶向目的会获得更好的奖励。然而，即使在这个项目里，驾驶代理程序也要在规定的时间里到达目的地，包含未来奖励不会有益于代理程序。实际上，如果代理程序给予多次试验学习，它甚至会给Q-value带来负面影响！

可选问题 9

在项目中有两个特点使得未来奖励在这个Q-Learning算法无效。一个特点是关于智能出租车本身，另一个是关于环境。你能指出它们是什么以及为什么未来奖励不会在这个项目中起效？

回答：

智能车是根据交叉路口的具体状态和情况做出的决定，但是这些交通情况并不是可以预测的，在不可预测的情况下，又没有获取数据的途径，所以地理位置信息无法保存，进而也就无法把地理信息放到Q-Learning的状态表中表示出来，所以进而对预测也不起作用，只能根据当前的环境状态去进行判断，智能车本身不知道它举例目的地有多远，这也是因素之一
如果起点和终点固定，那么未来奖励可以从终点扩散到起点，对于环境来说，每次训练或者测试，都会重新随机选择目的地和起点，由于目的地和起点的不固定，所以未来奖励无法起到从终点扩散到起点的效果

注意:当你写完了所有的代码，并且回答了所有的问题。你就可以把你的 iPython Notebook 导出成 HTML 文件。你可以在菜单栏，这样导出File -> Download as -> HTML (.html)把这个 HTML 和这个 iPython notebook 一起做为你的作业提交。

阅读全文

0 0

优达（Udacity）smartcab

机器学习工程师纳米学位

强化学习

项目 4: 训练智能出租车学会驾驶

开始

了解世界

问题 1

理解代码

问题 2

实现一个基本的驾驶代理程序

基本代理程序模拟结果

问题 3

通知驾驶代理程序

识别状态

问题 4

定义状态空间

问题 5

更新驾驶代理程序的状态

实现Q-Learning驾驶代理程序

Q-Learning模拟结果

问题 6

改进Q-Learning驾驶代理程序

改进Q-Learning的模拟结果

问题7

定义一个最优策略

问题 8

选做：未来奖励 - 折扣因子 'gamma'

可选问题 9

选做：未来奖励 - 折扣因子 `'gamma'`