Andrew Ng机器学习课程17(2)

来源:互联网 发布:特朗普移民禁令 知乎 编辑:程序博客网 时间:2024/06/05 16:50

Andrew Ng机器学习课程17(2)


声明:引用请注明出处http://blog.csdn.net/lg1259156776/


说明:主要介绍了利用value iteration和policy iteration两种迭代算法求解MDP问题,还介绍了在实际应用中如何通过积累“经验”更新对转移概率和reward的估计的学习模型,并结合两种迭代算法进行求解的完整过程。


这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述


2015-10-11 艺少

0 0
原创粉丝点击