举例说明强化学习以及监督学习的区别

来源:互联网 发布:世纪证券交易软件 编辑:程序博客网 时间:2024/04/29 21:11

可以分为两方面看:

种西瓜的例子

强化学习是一个多次决策的过程,可以形成一个决策链,即西瓜书上种西瓜的例子;监督学习只是一个一次决策的过程。

摇杠赌博机的例子

强化学习:赌徒没有初始数据集,只能通过用某种策略取测试摇杠,期望能在整个测试过程得到最好的收益;

监督学习:赌徒一开始就统计了所有用户在赌博机上的收益情况,然后进行监督学习得到模型。等赌徒操作摇杠赌博机时直接利用模型得到该摇哪个摇杠。

这里面也隐含着:强化学习在测试收集数据的过程中是有代价的,而监督学习是一开始就给定了数据集,收集数据集的代价是其他人所承担的,所以监督学习不用考虑这部分的代价。

阅读全文
0 0