机器学习分类:监督学习、无监督学习、半监督学习、强化学习

来源:互联网 发布:淘宝卖家没流量怎么办 编辑:程序博客网 时间:2024/05/16 14:11

监督学习(Supervised Learning)

数据集为(x, y)

一些监督学习技术包括:

  1. 线性回归 (回归)
  2. 局部线性回归 (回归)
  3. logistic回归 (分类)
  4. 深度神经网络

无监督学习(Unsupervised Learning)

数据集为(x)

一些无监督学习技术包括:

  1. 自编码(Autoencoding)
  2. 主成分分析(Principal components analysis)
  3. 随机森林(Random forests)
  4. K均值聚类(K-means clustering)
  5. 生成对抗网络(generative adversarial networks)

半监督学习(Semi-supervised Learning)

半监督学习在训练阶段结合了大量未标记的数据和少量标签数据,

数据集为(x1, y1)+(x2)

强化学习(Reinforcement Learning)

数据集为(),即没有数据集,需要算法需要尝试还有探索,目标是优化整个探索过程使其得到尽可能高的reward。

举例说明强化学习以及监督学习的区别

可以分为两方面看:

  1. 强化学习是一个多次决策的过程,可以形成一个决策链,西瓜书上种西瓜的例子;监督学习只是一个一次决策的过程。
  2. 摇杠赌博机的例子
    强化学习:赌徒没有初始数据集,只能通过用某种策略取测试摇杠,期望能在整个测试过程得到最好的收益;
    监督学习:赌徒一开始就统计了所有用户在赌博机上的收益情况,然后进行监督学习得到模型。等赌徒操作摇杠赌博机时直接利用模型得到该摇哪个摇杠。
    这里面也隐含着:强化学习在测试收集数据的过程中是有代价的,而监督学习是一开始就给定了数据集,收集数据集的代价是其他人所承担的,所以监督学习不用考虑这部分的代价。

一些资料:

  1. DeepMind在Nature上发表了一篇文章,描述了一个将强化学习与深度学习结合起来的系统,该系统学会该如何去玩一套Atari视频游戏,一些取得了巨大成功(如Breakout),而另一些就没那么幸运了(如Montezuma’s Revenge(蒙特祖玛的复仇))。
  2. Nervana团队(现在在英特尔)发表了一个很好的解惑性博客文章,对这些技术进行了详细介绍,大家有兴趣可以阅读一番。
    https://www.nervanasys.com/demystifying-deep-reinforcement-learning/
  3. 在DeepMind论文中看到的那样,算法未能学习如何去玩Montezuma’s Revenge。其原因是什么呢?正如斯坦福大学生所描述的那样,“在稀缺回报函数的环境中,强化学习agent仍然在努力学习”。当你没有得到足够的“hotter”或者“colder”的提示时,你是很难找到隐藏的“钥匙”的。斯坦福大学的学生基础性地教导系统去了解和回应自然语言提示,例如“climb down the ladder”或“get the key”,从而使该系统成为OpenAI gym中的最高评分算法。算法视频观看算法演示
  4. 理查德•萨顿和安德鲁•巴托写了关于强化学习的书
阅读全文
0 0