FPGA机器学习之stanford机器学习第十一堂

来源:互联网 发布:演唱会用的软件 编辑:程序博客网 时间:2024/05/05 06:12

Bayesian statistics

贝叶斯统计

防止过拟合的方法:线性回归。

最大似然估计。这个是频率学派的。

贝叶斯学派:会有一个先验概率p(theta)。

 

在theta很高维度的时候,是很难计算出来的。

MAP,maximum  a   posteriori。

如果用最大似然估计。过拟合一个少数点模型的话。曲线会很波动。

而贝叶斯会很平滑,但是依然是过拟合。而且过拟合的概率也会减少。

关于过拟合举例子说,一个文本可能就几十个样本,可是却有3000个特征,特征就是单词,这样就很容易过拟合。可是如果有贝叶斯高斯先验概率的话。就可以避免这个现象。

online  learning

在线误差。

很多人犯这个问题。过早系统优化。

选取一个邮件,只有了100个词语,而不是用5000个。这样会有20%的误差。这个还是不可以接受的。

怎么改进算法呢??第一个可以增加训练样本,这样做是有效果的。第二个,可以使用更少的特征。50个特征来试一试。

也可以用梯度下降法,多运行几次,将收敛状态更完美。也可以试一下牛顿下降法。

或者使用支持向量机,可能效果更好。我们的目的就是要改进学习算法。使得结果更准确。

也可以改变参数,不过很多时候,依赖的是运气。

其实不能老是随机的试验,所以需要想好诊断方法才好。

高方差,训练集合的拟合将会非常好。高偏差会是误差很高。

高偏差的图,到某个程度后,训练在多也不会有误差变化了。

39分钟可以,有些关于高偏差和高方差的解说。非常好。

 

第二种诊断方法。

svm加权准确率更好点。

算法没有收敛。

说明j(theta)并不是一个好的函数。花费几年的时间去做一个机器学习应用。

误差分析

可以帮助找到算法中哪个地方不够好。

67分钟这里,这个诊断方法比较重要。

学习方法的通用建议:先写个简单的,通过诊断哪里出错,然后在修改的方法。这样很容易更快完成。

第一步是找到数据中,有问题的数据,画图最有效。

首先用线性回归试一下,找出那部分更难写。

我感觉这一讲是非常有用的。设计怎么严重学习算法的效率

 

微笑我能力有限,但是我努力分享我所知道的。一起学习,讲人工智能推向一个新的高度

 

0 0
原创粉丝点击