FPGA机器学习之stanford机器学习第十堂

来源:互联网 发布:装修设计软件下载 编辑:程序博客网 时间:2024/05/17 21:41

               误差都为0.

这次用三点举例子。也是可以完全分离的。

如果用这三个点的话。h就不可以分离了。

可是用4个点的话。h函数也不可以完全分离。

在二维空间里面,任何线性分离器都不可以分割右上角四个点的情况。

根据这些情况可以得到一些结论。

如果要分离n个假设类的话,至少需要VC维数至少是n+1个

给定一个H假设类,让d=vc(h)。在至少概率在1-的话。

VC是不会有过拟合现象的。

SVM和logistic回归都不是直接的ERM算法。但是是ERM的近似。

model  selection

Cross validation

 70%数据用来训练,30%数据用来测试。有些更有效率的交叉选取。

k值交叉选取:k经常是10.每次留10分之1做验证。剩下的十分之9做训练。得到一个误差。

然后在用第二个10分之一做验证,剩下十分之九做训练。在得到一个误差。共做了10次训练,求十个误差。

如果样本数量非常少,就会选用留1,交叉训练。方法和上面的k值交叉选取一样。

 

关于这些边界和样本数的相关情况是,如果你按照边界理论去解出样本量的话,有时候样本需要很大。是无法完成的。

但是一般性情况是样本几倍于参量,拟合会很好。

Feature Selection

前向选择算法。一个一个特征来,然后用交叉验证,得到一个最小误差。然后把误差最小的合格的特征保留下来。这个就是特征选择。

封装特征选择。它的变相叫后向选择。就是不合格删除特征过程。

如果太多的特征的情况下,用的方法叫过滤模型。

大概是x对y的影响度有多大。这个公式来估计。

这个叫KL距离。

需要选取前K个特征。

 

 

微笑我能力有限,但是我努力分享我的知识,希望能一起学习,一起进步。这个就是我的初衷

0 0
原创粉丝点击