FPGA机器学习之stanford机器学习第十八堂

来源：互联网发布：淘宝客案例省钱快报编辑：程序博客网时间：2024/06/07 13:31

MDP的几个参量。

这个就比较熟悉了。奖励最大化函数。

奖励函数改变，并不会有太多影响。

s状态，a行为。奖励机制。

1是当前回报，2未来总回报。

左边的圈是加1，后边的圈加10，下面是机器人

的行为，为什么没有向10方向，是因为没有足够的时间参量。（比如飞机飞行，燃料决定时间参量）

LQR，

线性二次方法则。同样的五个参量。

wt，噪声项，不是很重要。非平稳动态。

S为线性函数。然后s0就是策略了。最后一个公式是最小均方误差。然后来求参数。

现在是f非线性模型。

横轴输入，竖向输出。图是线性化的过程。那个是切线。

当你用一个线性化一个非线性系统，主要是因为一般情况下，离的近，所以可以近似。

倒立摆的情况一般都是数据接近0的情况，因为0才是中心轴嘛。所以线性化，不会有太多问题。

Vt最佳决策。T是转置。最后一个式子奖励最大化求法。

最佳行为。状态的线性函数。最佳策略是线性函数。LS就是线性函数。

我能力有限，但是我努力让自己多学一点。这是我的学习笔记，方便复习。

0 0