ML的45问(4)——评估假设、贝叶斯与PAC可学习

来源:互联网 发布:linux 跨机器拷贝文件 编辑:程序博客网 时间:2024/06/10 21:58

1. 评估假设的意义

评估假设的3个意义:

  1. 确定哪个假设更具有普适性。
  2. 当前样本训练出的数据错误率的可信度是多少。
  3. 如何利用有限的数据,获得更好的假设。

2. 置信区间的计算

前提:

  1. n>30
  2. 如果没有其他信息提供,则真实错误率errorD(h)与样本错误率errors(h)是一致的。

计算示例,一般多用在计算最少赢手机的样例数是多少的题目。例如下题:

要测试一假设h,其errorD(h)已知在0.2到0.6的范围内。要保证95%双侧置信区间的宽度小于0.1,最少应搜集的样例数是多少?

解:查表可知,置信度为95%,则Z为1.96,因此应当满足下式:

1.96×errorD(h)×(1errorD(h))n<0.05

n>errorD(h)×(1errorD(h))0.000651

然后解得n=385

其实这里用errorD(h)errors(h)没有太大区别,因为就像前提2所示的。

3. 贝叶斯学习方法的特性

  1. 观察到的每个训练样例可以增量的降低或升高某假设的估计概率。而其他算法遇到不一致时,会完全去掉该假设。
  2. 先验知识可以与观察数据一起决定假设的最终概率。
  3. 贝叶斯方法可允许假设做出不确定性预测。
  4. 新的实力分类可由多个假设一起作出预测,用他们的概率来加权。

4. 最大后验假设与一致学习器的关系

一致学习器指的是它输出的假设在训练样例上有0错误率。
若有均匀的先验概率且无噪声。那么每一个输出假设都是最大后验假设。

5. 最大后验假设与最小误差平方和一致的条件

hMAP=argmaxhHP(h|D)

hMAP=argmaxhHP(D|h)P(h)P(D)

hMAP=argmaxhHP(D|h)P(h)P(D)

hML=argmaxhHP(D|h)

hML=argmaxhHi=1mP(di|h)

hML=argmaxhHi=1m12πσ2e12σ2(diμ)2

hML=argmaxhHi=1m12πσ2e12σ2(dih(xi))2

hML=argmaxhHi=1m[In12πσ212σ2(dih(xi))2]

hML=argmaxhHi=1m[12σ2(dih(xi))2]

hML=argminhHi=1m[12σ2(dih(xi))2]

=argminhHi=1m[(dih(xi))2]

6. 最大后验假设与最小描述长度编码的等价关系

hMAP=argmaxhHP(D|h)P(h)P(D)

hMAP=argmaxhHlog2P(D|h)+log2P(h)

hMAP=argminhHlog2P(D|h)log2P(h)

hMAP=argminLcH(h)+Lc(D|h)(D|h)

hMDL=argminLc1(h)+Lc2(D|h)

若CH=C_1,C(D|h)=C_2,则hMAP=hMDL

7. 朴素贝叶斯分类器过程

  1. 首先找出类别概率P(yes)、P(no),是多少就是多少,不用m估计。
  2. 再计算测试样例中,每个属性值的条件概率:
    p(yes|h)=p(yes)×p(1|yes)×p(2|yes)×p(n|yes)
    p(no|h)=p(no)×p(1|no)×p(2|no)×p(n|no)
  3. 最后进行归一化

8. 打散的概念

对于一个给定集合S={x1,x2,...,xd},如果一个假设类H能够实现集合S中所有元素的任一中标记方式,则称H能够分散S。

也就是说,假设空间H是S的所有标记总和。

9. VC维

指能够被H打散的最大集合的大小,线性面里N维的VC维是N+1。

10. PAC学习定义

能够从合理数量的训练数据中,通过合理的计算量可靠的学习到知识。
要求:
1) 不要求零错误率,错误率可以在某个非常小的常数范围内。
2)不要求对所有数据都能成功预测,失败概率也可以在某个非常小的常数范围内。

阅读全文
0 0