FPGA机器学习之stanford机器学习第十八堂

来源:互联网 发布:淘宝客案例省钱快报 编辑:程序博客网 时间:2024/06/07 13:31

              

MDP的几个参量。

这个就比较熟悉了。奖励最大化函数。

奖励函数改变,并不会有太多影响。


s状态,a行为。奖励机制。


1是当前回报,2未来总回报。

左边的圈是加1,后边的圈加10,下面是机器人

的行为,为什么没有向10方向,是因为没有足够的时间参量。(比如飞机飞行,燃料决定时间参量)

LQR,

线性二次方法则。同样的五个参量。

wt,噪声项,不是很重要。非平稳动态。


S为线性函数。然后s0就是策略了。最后一个公式是最小均方误差。然后来求参数。

现在是f非线性模型。

横轴输入,竖向输出。图是线性化的过程。那个是切线。

当你用一个线性化一个非线性系统,主要是因为一般情况下,离的近,所以可以近似。

倒立摆的情况一般都是数据接近0的情况,因为0才是中心轴嘛。所以线性化,不会有太多问题。

Vt最佳决策。T是转置。最后一个式子奖励最大化求法。

最佳行为。状态的线性函数。最佳策略是线性函数。LS就是线性函数。

 

微笑我能力有限,但是我努力让自己多学一点。这是我的学习笔记,方便复习

 

0 0