举例说明强化学习以及监督学习的区别

来源：互联网发布：世纪证券交易软件编辑：程序博客网时间：2024/04/29 21:11

可以分为两方面看：

种西瓜的例子

强化学习是一个多次决策的过程，可以形成一个决策链，即西瓜书上种西瓜的例子；监督学习只是一个一次决策的过程。

强化学习：赌徒没有初始数据集，只能通过用某种策略取测试摇杠，期望能在整个测试过程得到最好的收益；

监督学习：赌徒一开始就统计了所有用户在赌博机上的收益情况，然后进行监督学习得到模型。等赌徒操作摇杠赌博机时直接利用模型得到该摇哪个摇杠。

这里面也隐含着：强化学习在测试收集数据的过程中是有代价的，而监督学习是一开始就给定了数据集，收集数据集的代价是其他人所承担的，所以监督学习不用考虑这部分的代价。

阅读全文

0 0