台湾大学机器学习基石Lecture5
来源:互联网 发布:windows消息机制 编辑:程序博客网 时间:2024/05/22 00:35
5-1:Recap and preview
概括和预习
Lecture4中我们得到了一个推论,如果|H|=M是有限的,并且数据N足够大,那么由公式(1):
可知,假设空间的所有假设都遵从PAC准则,能够确保
回顾一下前4章的内容:
1、目标函数f是未知的,第一章介绍了机器学习是通过算法寻找到一个和目标函数f接近的hypothesis,令g就等于该h,用第4章的话来说就是使得在测试数据上的错误率接近为0,即
2、第二章讲述了PLA和pocket算法,目的是使得h在训练数据集上的错误尽量接近为0,也就是
3、第三章讲述了几种机器学习核心的方法,其中之一是利用批量的数据和监督学习 来进行二元分类。
4、第四章中,论述了如果|H|=M是有限的,并且数据N足够大的时候,机器学习是有可能的。即
以上的内容将机器学习拆分成立2个内容:
1、我们能否保证
2、我们能否使得
针对第四章提出的假设情况总数M,我们分两种情况的讨论结果如下表:
由上述表格,我们可以看出,要适当的选择M,如果M趋于无穷呢?算法的表现会特别糟糕,怎么办呢?后面进行解答。
5-2:Effective Number Of Lines
从公式
当存在两个相似的假设时,那么他们之间重合的数据就非常多,如下图所示:
从图中可以看出,B1,B2,B3三个是相似的假设,他们之间重叠的区域特别大,当然,坏数据也是基本重叠的,那么我们应该考虑有效的假设也即有效的线的数量。
我们先从简单的一个输入
很显然,
从图中可以看出,我们可以画出4种不同的情形。继续观察3种输入
从图中可以看出,确实可以分成8种情况,但是不是一直都满足可以分解成8种情况呢?例如考虑下面的输入情形:
当三个输入被排成一条线的时候,是不可以分成8种情况的,存在2种情况,无论哪一条线都不可能分成图中的两种情况。继续考虑4种输入:
由于是对称的,只给出了对称的一半情形,我们可以发现,对于4个输入,无论怎么排列,都存在2种情形无法被分割出来。依次类推。
我们用一张表格来总结一下上面的结果:
于是,我们修改公式为:
只要满足,当
5-3:Effective Number Of Hypothesis
有效的假设空间数量
上一节介绍了如何将无限多条直线转换为有限的直线数量。用训练样本的分类情况(即X和O的组合)来确定一类假设叫做Dictonomy(二分法),记为H(
从表中可以看出,二分空间的大小是存在上限的,现在的思想就是用H来代替假设空间即无限大的M,那么如何取代呢?我们仔细观察发现例如输入
则
首先我们从一维PLA即positive rays(正射线)说起,如下图所示:
该图中
当然,如果这里不考虑方向的问题,那么只需要考虑对称性,即正负情况颠倒
即可,但这样子多加了2中情况,即全正,全负,所以:
再考虑一种情况,即positive interval(正的间隔,即中间部分为正),如下图所示:
其成长函数计算为:
接着考虑一个二维平面的例子,以凸多边形为例,其内部为正,外部为负,其边界作为假设函数的划分线,如下图所示:
左边蓝色部分表示一种凸的图形,右边蓝色部分表示非凸的图形。如何求取成长函数呢?考虑一种极端的情况,即所有样本点分布在一个圆上,那么我们的目标是寻找一个最大值的分布,由于每个样本点可正可负,即每个点可以取两种情况,当有N个点在圆上时,由排列组合知:
5-4:break point
对上一节所说的各种分类情况进行汇总如下表:
事实上,我们更偏爱多项式类的成长函数而不是指数形式的成长函数,因为多项式的成长函数的上限下降的更多。于是我们提出一个新的概念,断点(break point),例如对于二维空间3个点,如下图所示:
我们可以将它分成8个部分,虽然有些分布不能分割这么多种,但是成长函数是取最大值的,但是当4个点的时候,无论什么分布都不可能分成16种,所以2D的break point是4,所以我们称不能满足完全分类的样本数量为断点(break point)。类推,可以得到断点的分布情形如下表:
由此可以得到下面的推论:
1、没有断点的时候,
2、存在断点为k的时候,其成长函数
- 台湾大学机器学习基石Lecture5
- 台湾大学机器学习基石Lecture2
- 台湾大学机器学习基石Lecture3
- 台湾大学机器学习基石Lecture4
- 台湾大学机器学习基石Lecture6
- 台湾大学机器学习基石Lecture7
- 台湾大学机器学习基石Lecture8
- 台湾大学机器学习基石Lecture9
- 台湾大学机器学习基石Lecture10
- 台湾大学机器学习基石Lecture11
- 台湾大学机器学习基石Lecture12
- 台湾大学林轩田老师机器学习基石:内容简介
- 台湾大学机器学习基石笔记整理
- 台湾大学机器学习基石lecture1小结
- 台湾大学林轩田机器学习基石课程学习笔记14 -- Regularization
- 台湾大学林轩田机器学习基石课程学习笔记15 -- Validation
- 台湾大学林轩田机器学习基石课程学习笔记
- 台湾大学林轩田机器学习基石笔记(一)
- 计算机视觉之语义分割
- mysql 数据库重要例题(存在量词exists),必考
- java中的枚举类
- java虚拟机学习之安全机制
- myeclipse 2017 代码提示功能
- 台湾大学机器学习基石Lecture5
- 静态工具类中使用注解注入service 空指针
- linux基础命令(二)文件寻址和正则表达式
- String to Integer (atoi)
- PhpStorm中快捷键总结,附详细使用说明
- 文章标题
- Python反爬虫系列方法
- 回数是指从左向右读和从右向左读都是一样的数,例如 12321 , 909 。请利用 filter() 滤掉非回数
- docker 搭建php环境 初学笔记