FPGA机器学习之龙星计划机器学习第六堂

来源：互联网发布：还珠格格知乎精华编辑：程序博客网时间：2024/04/28 13:42

蓝色的是训练数据，也是已经知道的数据。绿线是我们预测的数据。

蓝色的点是训练点，也是实际中的情况。红色是训练后，我们拟合或者是预测的情况。

E，就是均方误差。1/2为了方便计算。

蓝点训练点，红色预测情况，绿线是最优。

M其实就是参数的数量。M=9就是过拟合了。平滑度很差了。

衡量一个模型是不是很好，主要是预测将来预测能不能很好。

训练集预测的非常好，但是测试集，不够好的话，也是不行的。

就像教学生一样，学习的题目，教的在好。但是考试新题目做不出来的话，也是很好。

我们要把收集的数据分为三分，蓝色的是训练数据，绿色的是验证数据，红色的是彩色数据。

大小就是数据量了。

红点是测试点。蓝点是训练点。绿线是训练模型了。红点与绿线的那个线，就是偏差了。

这两张图能看出用更多的点，能够拟合的更好。但是浪费了太多的数据。

大概解释一下，就是我拿走一个点做测试点，其他点做训练，训练出的模型，然后在测试与拿出的点的偏差。

下回在拿走一个点（和上次不同的），剩下的训练，训练出模型，在测试模型和拿出点的偏差。

一直这样下去。找出最好的模型。

当训练的点过多的时候，这个方法就会花费很长的时间。

这个是把大量的数据分成几份。其实理念还是一样的。

我能力有限，但是我努力学习。每天上班很辛苦，所以有时候都没时间学习。

0 0