机器学习基石第七讲:the vc dimension
来源:互联网 发布:美工兼职 编辑:程序博客网 时间:2024/05/21 10:57
博客已经迁移至Marcovaldo’s blog (http://marcovaldong.github.io/)
机器学习基石第七讲主要介绍了VC dimension,笔记整理在下面。
Definition of VC Dimension
上一讲我们找到了B(N,k)的上限,拿它和
上一讲我们提到了VC bound:在dataset上,H中任意一个hypothesis发生坏事情的概率不超过一个很小很小的定值。
这时可以说机器学习算法选择的g,其
下面开始介绍VC Dimension,其是最大的non-break point的那个点,所以有
下面是四个例子的vc dimension。
前面我们说当break point露出一线曙光的时候有好的hypothesis,现在则变成了是有好的vc dimension的时候。
本小节测试:
VC Dimension of Perceptrons
现在回到课程开始时介绍的2D PLA算法。一方面,假设训练数据集线性可分,PLA算法就可以收敛,经过T次(足够大)迭代后就能够得到一个g有
现在我们尝试解决多维度的问题。前面知道了1D perceptron的
证明之前先来一个小测试:
先来证明
如何做到这一点呢,看下面:
所以说这一组特殊的数据集可以被shatter,从而证明了
小测试:
现在来证明
数据点之间的这种线性依赖关系限制了dichotomy的产生,这是一种特殊情况,但我们要证明的是所有的情况都不能被shatter。现在我们用一组d维的一般例子来解释。下图中的矩阵X包含d+2组数据,这d+2组数据肯定是线性相关的,然后重复前一张图的计算公式,我们同样也可以证明不能被shatter。这样我们就完成了对一般情况的证明。
最后是小测试:
Physical Intuition of VC Dimension
VC dimension的物理意义就是我的hypothesis在做二元分类的时候大概有多少的自由度,也告诉我们这个hypothesis能最多产生多少dichotomy。不同的VC dimension对应的好坏处见下图:
这时,选择合适的VC dimension就变得很重要,而不同的VC dimension对应着不同的模型,所以选择模型是一件很重要的事。
本小节测试:
Interpreting VC Dimension
前面我们用一个不等式表示坏事情发生的概率,通过对该不等式的处理,我们得到了一个不等式来表示好事情发生的概率。
这里我们用
观察下图中的图像,可以看到随着
另外,VC bound还可以说明样本的复杂度。假设已经给定了
这也说明这个VC bound实际上是很宽松的,宽松的原因是在整个推理过程中多次放大标准(要求太严),具体看下面四点。
到这里,VC bound背后的一些数学意义和哲学意义就算介绍完了,虽然在以后的课程中涉及不太多,但大大加深了我们对机器学习的理解。
本节小测试:
- 机器学习基石第七讲:the vc dimension
- 台湾国立大学机器学习基石.听课笔记(第七讲):The VC Dimension
- 机器学习基石-The VC Dimension
- 机器学习基石——第7-8讲.The VC dimension
- 机器学习基石笔记(7)——The VC Dimension
- 机器学习基石 7.4 Interpreting VC Dimension
- 台湾大学林轩田机器学习基石课程学习笔记7 -- The VC Dimension
- 机器学习基石学习笔记3 VC Dimension(1)
- 机器学习基石 7.1 Definition of VC Dimension
- 机器学习基石 7.2 VC Dimension of Perceptrons
- 机器学习基石 7.3 Physical Intuition of VC Dimension
- 机器学习基石-07-1-Definition of VC Dimension
- 机器学习基石-07-2-VC Dimension of Perceptrons
- 机器学习基石-07-3-Physical Intuition of VC Dimension
- 机器学习基石-07-4-Interpreting VC Dimension
- 【02】台大机器学习L7 The VC Dimension
- 机器学习基石第一讲:the learning problem
- 机器学习基石第九讲:linear regression
- 贪心算法☞磁盘文件最优存储问题
- python文件读写
- 分享我原油金融直播系统开发的过程心得
- 链栈的基本操作
- 如何应用assets下的文件
- 机器学习基石第七讲:the vc dimension
- Java并发:等待事件发生后所有线程继续执行
- LeetCode *** 79. Word Search
- java基础学习(3)
- android.webkit.WebView/WebViewClient/WebChromeClient
- 从头认识多线程-2.2 synchronized持有对象锁与类锁的相同点
- Hibernate4实战 之 第二部分:Hibernate的基本配置
- 循环队列的基本操作
- Paxos算法