FPGA机器学习之stanford机器学习第十一堂

来源：互联网发布：演唱会用的软件编辑：程序博客网时间：2024/05/05 06:12

Bayesian statistics

贝叶斯统计

防止过拟合的方法：线性回归。

最大似然估计。这个是频率学派的。

贝叶斯学派：会有一个先验概率p（theta）。

在theta很高维度的时候，是很难计算出来的。

MAP，maximum a posteriori。

如果用最大似然估计。过拟合一个少数点模型的话。曲线会很波动。

而贝叶斯会很平滑，但是依然是过拟合。而且过拟合的概率也会减少。

关于过拟合举例子说，一个文本可能就几十个样本，可是却有3000个特征，特征就是单词，这样就很容易过拟合。可是如果有贝叶斯高斯先验概率的话。就可以避免这个现象。

online learning

在线误差。

很多人犯这个问题。过早系统优化。

选取一个邮件，只有了100个词语，而不是用5000个。这样会有20%的误差。这个还是不可以接受的。

怎么改进算法呢？？第一个可以增加训练样本，这样做是有效果的。第二个，可以使用更少的特征。50个特征来试一试。

也可以用梯度下降法，多运行几次，将收敛状态更完美。也可以试一下牛顿下降法。

或者使用支持向量机，可能效果更好。我们的目的就是要改进学习算法。使得结果更准确。

也可以改变参数，不过很多时候，依赖的是运气。

其实不能老是随机的试验，所以需要想好诊断方法才好。

高方差，训练集合的拟合将会非常好。高偏差会是误差很高。

高偏差的图，到某个程度后，训练在多也不会有误差变化了。

39分钟可以，有些关于高偏差和高方差的解说。非常好。

第二种诊断方法。

svm加权准确率更好点。

算法没有收敛。

说明j(theta)并不是一个好的函数。花费几年的时间去做一个机器学习应用。

误差分析

可以帮助找到算法中哪个地方不够好。

67分钟这里，这个诊断方法比较重要。

学习方法的通用建议：先写个简单的，通过诊断哪里出错，然后在修改的方法。这样很容易更快完成。

第一步是找到数据中，有问题的数据，画图最有效。

首先用线性回归试一下，找出那部分更难写。

我感觉这一讲是非常有用的。设计怎么严重学习算法的效率。

我能力有限，但是我努力分享我所知道的。一起学习，讲人工智能推向一个新的高度。

0 0