FPGA机器学习之stanford机器学习第十堂

来源：互联网发布：装修设计软件下载编辑：程序博客网时间：2024/05/17 21:41

误差都为0.

这次用三点举例子。也是可以完全分离的。

如果用这三个点的话。h就不可以分离了。

可是用4个点的话。h函数也不可以完全分离。

在二维空间里面，任何线性分离器都不可以分割右上角四个点的情况。

根据这些情况可以得到一些结论。

如果要分离n个假设类的话，至少需要VC维数至少是n+1个

给定一个H假设类，让d=vc（h）。在至少概率在1-的话。

VC是不会有过拟合现象的。

SVM和logistic回归都不是直接的ERM算法。但是是ERM的近似。

model selection

Cross validation

70%数据用来训练，30%数据用来测试。有些更有效率的交叉选取。

k值交叉选取：k经常是10.每次留10分之1做验证。剩下的十分之9做训练。得到一个误差。

然后在用第二个10分之一做验证，剩下十分之九做训练。在得到一个误差。共做了10次训练，求十个误差。

如果样本数量非常少，就会选用留1，交叉训练。方法和上面的k值交叉选取一样。

关于这些边界和样本数的相关情况是，如果你按照边界理论去解出样本量的话，有时候样本需要很大。是无法完成的。

但是一般性情况是样本几倍于参量，拟合会很好。

Feature Selection

前向选择算法。一个一个特征来，然后用交叉验证，得到一个最小误差。然后把误差最小的合格的特征保留下来。这个就是特征选择。

封装特征选择。它的变相叫后向选择。就是不合格删除特征过程。

如果太多的特征的情况下，用的方法叫过滤模型。

大概是x对y的影响度有多大。这个公式来估计。

这个叫KL距离。

需要选取前K个特征。

我能力有限，但是我努力分享我的知识，希望能一起学习，一起进步。这个就是我的初衷。

0 0