ML的45问（4）——评估假设、贝叶斯与PAC可学习

来源：互联网发布：linux 跨机器拷贝文件编辑：程序博客网时间：2024/06/10 21:58

1. 评估假设的意义

评估假设的3个意义：

前提：

计算示例，一般多用在计算最少赢手机的样例数是多少的题目。例如下题：

要测试一假设h,其errorD(h)已知在0.2到0.6的范围内。要保证95%双侧置信区间的宽度小于0.1，最少应搜集的样例数是多少？

解：查表可知，置信度为95%，则Z为1.96，因此应当满足下式：

1.96 \times e r r o r D ( h ) \times ( 1 - e r r o r D ( h ) ) n - - - - - - - - - - - - - - - - - - - - - - - \sqrt < 0.05

n > e r r o r D ( h ) \times ( 1 - e r r o r D ( h ) ) 0.000651

然后解得

n=385

其实这里用errorD(h)和errors(h)没有太大区别，因为就像前提2所示的。

一致学习器指的是它输出的假设在训练样例上有0错误率。
若有均匀的先验概率且无噪声。那么每一个输出假设都是最大后验假设。

h M A P = a r g max h \in H P (h | D)

h M A P = a r g max h \in H P ( D | h ) P ( h ) P ( D ) 贝 叶 斯 公 式

h M A P = a r g max h \in H P (D | h) P (h) 省 略 P (D)

h M L = a r g max h \in H P (D | h) 每 个 概 率 都 一 样 ， 变 成 最 大 似 然

h M L = a r g max h \in H \prod i = 1 m P (d i | h) 求 积

h M L = a r g max h \in H \prod i = 1 m 1 2 π σ 2 - - - - \sqrt e - 1 2 σ 2 (d i - μ) 2 中 心 极 限 定 理

h M L = a r g max h \in H \prod i = 1 m 1 2 π σ 2 - - - - \sqrt e - 1 2 σ 2 (d i - h (x i)) 2 换 成 可 算

h M L = a r g max h \in H \sum i = 1 m [I n 1 2 π σ 2 - - - - \sqrt - 1 2 σ 2 (d i - h (x i)) 2] 取 对 数

h M L = a r g max h \in H \sum i = 1 m [- 1 2 σ 2 (d i - h (x i)) 2] 省 略 常 数 项

h M L = a r g min h \in H \sum i = 1 m [1 2 σ 2 (d i - h (x i)) 2] 最 大 变 最 小

最 小 误 差 平 方 和 = a r g min h \in H \sum i = 1 m [(d i - h (x i)) 2] 最 大 变 最 小

h M A P = a r g max h \in H P (D | h) P (h) 省 略 P (D)

h M A P = a r g max h \in H l o g 2 P (D | h) + l o g 2 P (h) 求 对 数

h M A P = a r g min h \in H - l o g 2 P (D | h) - l o g 2 P (h) 最 大 变 最 小

h M A P = a r g min L c H (h) + L c (D | h) (D | h) 转 换

h M D L = a r g min L c 1 (h) + L c 2 (D | h)

若CH=C_1,C(D|h)=C_2,则

hMAP=hMDL

首先找出类别概率P（yes）、P（no），是多少就是多少，不用m估计。
再计算测试样例中，每个属性值的条件概率： $p (y e s | h) = p (y e s) \times p (特征 1 | y e s) \times p (特征 2 | y e s) \times p (特征 n | y e s)$ $p (n o | h) = p (n o) \times p (特征 1 | n o) \times p (特征 2 | n o) \times p (特征 n | n o)$
最后进行归一化

对于一个给定集合S={x1,x2,...,xd}，如果一个假设类H能够实现集合S中所有元素的任一中标记方式，则称H能够分散S。

也就是说，假设空间H是S的所有标记总和。

指能够被H打散的最大集合的大小，线性面里N维的VC维是N+1。

能够从合理数量的训练数据中，通过合理的计算量可靠的学习到知识。
要求：
1）不要求零错误率，错误率可以在某个非常小的常数范围内。
2）不要求对所有数据都能成功预测，失败概率也可以在某个非常小的常数范围内。

阅读全文

0 0