机器学习基石-Training versus Testing
来源:互联网 发布:双色球选号过滤软件 编辑:程序博客网 时间:2024/06/17 02:16
大纲
Recap and Preview
下图是到目前为止,我们所能了解到的机器学习的基本流程
该流程图说明,用于训练的训练数据
回顾一下前面四节课所讲到的内容,其实都是层层铺垫的
第一节课,定义了机器学习的目的,即
g≈f ,也就说让Eout(g)≈0 第二节课,我们通过演算法,使
Ein(g)≈0 第三节课,我们把重心放在批量监督分类问题上,这是机器学习的一个核心问题
第四节课,我们建立起
Eout(g)和Ein(g) 的联系,即,在一定的假设条件下,Eout(g)≈Ein(g)
其实我们可以把机器学习问题总结为两个问题
我们能否使
Ein(g) 足够接近Eout(g) 我们能否使
Ein(g) 足够小
下面我们看看
- 当M比较小的时候,
Ein(g) 足够接近Eout(g) ,但是我们面临更小的选择,可能找不到合适的g ,使Ein(g)≈0 - 当M比较大的时候,我们可以使
Ein(g)≈0 ,但是我们不能让Ein(g) 足够接近Eout(g)
所以选择合适的M很重要,在PLA问题中,M的个数无限大,为什么PLA能很好的进行机器学习呢?
Effective Number of Lines
首先我们回顾一下union bound形式的hoffeding不等式
当M无限大的时候,左边可能会大于1,为什么会发生这种情况?
这是我们在计算Bad Sample概率的时候,把重叠的部分也算进去了,如下图所示
因为存在相似的假设,
如何将无限的假设归为有限的类,看下面的例子
- 一个点的情况
两个点情况
三个点的情况
四个点的情况
总结一下
所以我们可以用effective(N)来代替M,因此就有
这里
当N很大的时候,右边接近0,所以学习问题是可行的。
Effective Number of Hypothesis
一些概念
首先我们定义两个概念
Dichotomies:平面上能将点完全用直线分开的直线种类,它的上界是
2N ,用符号|H(x1,x2,..xN)| 表示
我们尝试用|H(x1,x2,..xN)| 替代MGrowth Function:因为
|H(x1,x2,..xN)| 依赖所给的数据D ,所以我们为了移除这种依赖,定义mH(N)=maxx1,x2...xn∈X|H(x1,x2,..xN)|
计算成长函数
我们考虑四种情况
Positive Rays
这里mH(N)=N+1 ,当N很大的时候,N<<2N Positive intervals
这里mH(N)=C2N+1 ,当N很大的时候,N<<2N convex region
定义这样的h ,当x在convex region上面时,h(x) =+1,反之为-1.
为了计算所有情况,我们可以按照以下方式定义x的分布
很容易算出
做一个总结
其中,positive rays和positive intervals的成长函数都是polynomial的,如果用
Break Point
定义
满足
举例
通过观察,我们可以做出一些猜想
- 没有break point,
mH(k)=2K ,这是确定的 - 如果存在break point。
mH(k)=O(Nk−1) (猜想),如果成立的话,这就可以保证机器学习的可行性。
- 机器学习基石-Training versus Testing
- 机器学习基石第五讲:training versus testing
- 台湾大学林轩田机器学习基石课程学习笔记5 -- Training versus Testing
- 机器学习基石——第5-6讲.Training versus Testing
- 机器学习演算法 第五讲 Training versus Testing——学习笔记
- Coursera台大机器学习课程笔记4 -- Training versus Testing
- Coursera台大机器学习课程笔记4 -- Training versus Testing
- 5. Training versus testing
- Machine Learning Foundation Lecuture 05 Training versus Testing 学习笔记
- 林轩田之机器学习课程笔记(why can machines learn之training versus testing)(32之5)
- Feasibility of Learning & Training versus Test(林轩田-机器学习)
- Learning from data: Training versus Testing
- 机器学习基石
- 机器学习基石笔记
- 机器学习基石
- 机器学习基石(2)
- 15. 机器学习基石
- 0. 机器学习基石
- c内存操作和宏条件编译
- Bone Collector
- API
- 9.1 在函数上添加包装器
- 指针数组与数组指针
- 机器学习基石-Training versus Testing
- Redis在项目中实战经验
- jqgrid 时间日期格式转换问题NaN,date类型年份异常
- 集合类
- Java NIO学习笔记一(IO VS NIO)
- 浅谈go语言 以及收集相关社区资料网站作为整理
- Maven环境搭建和介绍
- 【云星数据---Apache Flink实战系列(精品版)】:Apache Flink高级特性与高级应用007-Slot和Parallelism的深入分析002
- 博弈论(2):智猪博弈