机器学习分类:监督学习、无监督学习、半监督学习、强化学习
来源:互联网 发布:淘宝卖家没流量怎么办 编辑:程序博客网 时间:2024/05/16 14:11
监督学习(Supervised Learning)
数据集为(x, y)
一些监督学习技术包括:
- 线性回归 (回归)
- 局部线性回归 (回归)
- logistic回归 (分类)
- 深度神经网络
无监督学习(Unsupervised Learning)
数据集为(x)
一些无监督学习技术包括:
- 自编码(Autoencoding)
- 主成分分析(Principal components analysis)
- 随机森林(Random forests)
- K均值聚类(K-means clustering)
- 生成对抗网络(generative adversarial networks)
半监督学习(Semi-supervised Learning)
半监督学习在训练阶段结合了大量未标记的数据和少量标签数据,
数据集为(x1, y1)+(x2)
强化学习(Reinforcement Learning)
数据集为(),即没有数据集,需要算法需要尝试还有探索,目标是优化整个探索过程使其得到尽可能高的reward。
举例说明强化学习以及监督学习的区别
可以分为两方面看:
- 强化学习是一个多次决策的过程,可以形成一个决策链,西瓜书上种西瓜的例子;监督学习只是一个一次决策的过程。
- 摇杠赌博机的例子
强化学习:赌徒没有初始数据集,只能通过用某种策略取测试摇杠,期望能在整个测试过程得到最好的收益;
监督学习:赌徒一开始就统计了所有用户在赌博机上的收益情况,然后进行监督学习得到模型。等赌徒操作摇杠赌博机时直接利用模型得到该摇哪个摇杠。
这里面也隐含着:强化学习在测试收集数据的过程中是有代价的,而监督学习是一开始就给定了数据集,收集数据集的代价是其他人所承担的,所以监督学习不用考虑这部分的代价。
一些资料:
- DeepMind在Nature上发表了一篇文章,描述了一个将强化学习与深度学习结合起来的系统,该系统学会该如何去玩一套Atari视频游戏,一些取得了巨大成功(如Breakout),而另一些就没那么幸运了(如Montezuma’s Revenge(蒙特祖玛的复仇))。
- Nervana团队(现在在英特尔)发表了一个很好的解惑性博客文章,对这些技术进行了详细介绍,大家有兴趣可以阅读一番。
https://www.nervanasys.com/demystifying-deep-reinforcement-learning/ - 在DeepMind论文中看到的那样,算法未能学习如何去玩Montezuma’s Revenge。其原因是什么呢?正如斯坦福大学生所描述的那样,“在稀缺回报函数的环境中,强化学习agent仍然在努力学习”。当你没有得到足够的“hotter”或者“colder”的提示时,你是很难找到隐藏的“钥匙”的。斯坦福大学的学生基础性地教导系统去了解和回应自然语言提示,例如“climb down the ladder”或“get the key”,从而使该系统成为OpenAI gym中的最高评分算法。算法视频观看算法演示
- 理查德•萨顿和安德鲁•巴托写了关于强化学习的书
阅读全文
0 0
- 机器学习分类:监督学习、无监督学习、半监督学习、强化学习
- 监督学习、无监督学习、半监督学习、强化学习
- 【机器学习 基本概念】监督学习、无监督学习、半监督学习与强化学习
- 监督学习、无监督学习、强化学习
- 监督学习?无监督学习?
- 监督学习&无监督学习
- 机器学习--无监督学习
- 机器学习模型的基本分类--有监督、无监督
- 监督学习,无监督学习,半监督学习
- 概念:监督学习、无监督学习与半监督学习
- 常见机器学习分类、常见主动学习、监督学习、非监督学习、半监督学习.
- 机器学习——监督学习,半监督学习,无监督学习,主动学习
- 机器学习入门—无监督学习、监督学习、强化学习概念及算法介绍
- Stanford 机器学习 第一讲-------监督学习,无监督学习和半监督学习
- 机器学习中的有监督学习,无监督学习,半监督学习
- 机器学习中的有监督学习,无监督学习,半监督学习
- 机器学习中的有监督学习,无监督学习,半监督学习
- 机器学习中的有监督学习,无监督学习,半监督学习
- skynet底层源码阅读(6)-定时器
- 商品sku,N规格js实现
- 使用Apriori算法进行关联分析
- css之position:relitive和top的关系
- python SyntaxError: Non-ASCII character '\xe5' in file的解决方法
- 机器学习分类:监督学习、无监督学习、半监督学习、强化学习
- 欢迎使用CSDN-markdown编辑器
- MyBatis源码研究之$和#
- ubuntu16.04安装ibus中文输入法
- 关于串口接收的处理策略
- python 打包及发布
- Hbuilder Mui iOS新建精简项目报错处理
- [个人笔记]关于AccountManager
- 泛型类型Type的详解