机器学习分类：监督学习、无监督学习、半监督学习、强化学习

来源：互联网发布：淘宝卖家没流量怎么办编辑：程序博客网时间：2024/05/16 14:11

监督学习（Supervised Learning）

数据集为(x, y)

一些监督学习技术包括：

数据集为(x)

一些无监督学习技术包括：

半监督学习在训练阶段结合了大量未标记的数据和少量标签数据,

数据集为(x1, y1)+(x2)

数据集为()，即没有数据集，需要算法需要尝试还有探索，目标是优化整个探索过程使其得到尽可能高的reward。

可以分为两方面看：

强化学习是一个多次决策的过程，可以形成一个决策链，西瓜书上种西瓜的例子；监督学习只是一个一次决策的过程。
摇杠赌博机的例子
强化学习：赌徒没有初始数据集，只能通过用某种策略取测试摇杠，期望能在整个测试过程得到最好的收益；
监督学习：赌徒一开始就统计了所有用户在赌博机上的收益情况，然后进行监督学习得到模型。等赌徒操作摇杠赌博机时直接利用模型得到该摇哪个摇杠。
这里面也隐含着：强化学习在测试收集数据的过程中是有代价的，而监督学习是一开始就给定了数据集，收集数据集的代价是其他人所承担的，所以监督学习不用考虑这部分的代价。

一些资料：

DeepMind在Nature上发表了一篇文章，描述了一个将强化学习与深度学习结合起来的系统，该系统学会该如何去玩一套Atari视频游戏，一些取得了巨大成功（如Breakout），而另一些就没那么幸运了（如Montezuma’s Revenge（蒙特祖玛的复仇））。
Nervana团队（现在在英特尔）发表了一个很好的解惑性博客文章，对这些技术进行了详细介绍，大家有兴趣可以阅读一番。
https://www.nervanasys.com/demystifying-deep-reinforcement-learning/
在DeepMind论文中看到的那样，算法未能学习如何去玩Montezuma’s Revenge。其原因是什么呢？正如斯坦福大学生所描述的那样，“在稀缺回报函数的环境中，强化学习agent仍然在努力学习”。当你没有得到足够的“hotter”或者“colder”的提示时，你是很难找到隐藏的“钥匙”的。斯坦福大学的学生基础性地教导系统去了解和回应自然语言提示，例如“climb down the ladder”或“get the key”，从而使该系统成为OpenAI gym中的最高评分算法。算法视频观看算法演示
理查德•萨顿和安德鲁•巴托写了关于强化学习的书

阅读全文

0 0