《机器学习》-- 周志华 (第一章学习笔记)
来源:互联网 发布:数据字典的作用是什么 编辑:程序博客网 时间:2024/05/23 02:03
绪论
基本术语
- 分类(classification):若我们欲预测的是离散值,如“好瓜”“坏瓜”,此类学习任务成为“分类”。
- 回归(regression):若预测的是连续值,如西瓜成熟度0.65,0.78,此类学习任务称为“回归”。
- 聚类(clustering):将训练集分成若干组(簇),这些簇可能对应一些潜在的概念划分,如“浅色瓜”“深色瓜”。
- 学习(learning)/训练(training):从数据中学得模型的过程。
- 训练数据:训练过程中使用的数据。
- 训练集:训练样本组成的集合。
- 真相/真实:关于数据的某种潜在规律自身。学习过程就是为了找出或逼近真相。
- 根据训练数据是否有标记信息,学习任务可分为:监督学习 和 无监督学习。分类、回归是监督学习,聚类是非监督学习。
- 泛化能力:学得模型适用于新样本的能力。
- 归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好,如算法喜欢“好瓜<->(色泽=青绿)^(根蒂=蜷缩)^(敲声=浊响)”。注:任何一个有效的学习算法必有其归纳偏好,否则它将被假设空间中假设所迷惑。
没有免费的午餐
No Free Lunch Theoren 定理 ,
没有免费的午餐定理,简称NFL定理,
由美国斯坦福大学的Wolpert和Macready教授提出。
在机器学习算法中的体现为在没有实际背景下,
没有一种算法比随机胡猜的效果好。
首先,我们假设一个算法为a,
而随机胡猜的算法为b,
为了简单起见,
假设样本空间为χ和假设空间为H都是离散的。
令 P(h|X,a)表示算法a基于训练数据X产生假设h的概率,
再令f代表我们希望的真实目标函数。
a的训练集外误差,即a 在训练集之外的所有样本上的误差为
Eote(a|X,f)=∑h∑x∈χXP(x)I(h(x)≠f(x))P(h|X,a)
其中I()是指示函数,若为真则取值1,否则取值0.
考虑二分类问题,且真实目标函数可以是任何函数χ{0,1},函数空间为{0,1}|χ|(|χ|指样本空间χ中元素个数,对所有可能的f按均匀分布对误差求和,有
∑fEote(a|X,f)
=∑f∑h∑x∈χXP(x)I(h(x)≠f(x))P(h|X,a)
=∑x∈χXP(x)∑hP(h|X,a)∑fI(h(x)≠f(x))
=∑x∈χXP(x)∑hP(h|X,a)122|χ|
=2|χ|1∑x∈χXP(x)∑hP(h|X,a)
=2|χ|1∑x∈χXP(x)1**
可以看到总误差竟与算法无关!
对于任何两个算法a和b都有
∑fEote(a|X,f)=∑fEote(b|X,f)
得证无论算法多好在没有实际背景情况下都不如随机胡猜。
所以,NFL定理最重要意义是,
在脱离实际意义情况下,
空泛地谈论哪种算法好毫无意义,
要谈论算法优劣必须针对具体学习问题
- 《机器学习》-- 周志华 (第一章学习笔记)
- 第一章 机器学习笔记 开始机器学习
- 机器学习(周志华)第一章
- 机器学习周志华第一章
- 机器学习笔记:第一章习题
- 《机器学习》周志华学习笔记——第一章 绪论
- 模式识别与机器学习(第一章)学习笔记
- 《机器学习》(周志华)第一章 绪论
- 第一章 绪论-机器学习(周志华)参考答案
- 周志华《机器学习》第一章习题
- 周志华《机器学习》读书笔记第一章
- [机器学习 - 周志华] - 第一章 绪论
- 周志华机器学习读书笔记第一章
- 周志华机器学习第一章习题
- 《机器学习》周志华第一章参考答案
- 机器学习 周志华 第一章习题
- 周志华 《机器学习》学习笔记系列一(绪论第一章+第二章)
- 笔记——机器学习第一章
- 开博
- CSS笔记(布局与定位)
- 机器学习
- java并发编程实战-基础知识总结
- JavaScript入门(1)
- 《机器学习》-- 周志华 (第一章学习笔记)
- Editor_EditorWindow学习07转换平台也可一键导出
- 远程计算机或设备将不受连接--解决方法
- 《机器学习》 -- 周志华 (第二章学习笔记)
- mamp pro 4.1.1 配置虚拟主机
- TCP协议中的URG和PSH位
- java之《ssm》第三方QQ登录
- 多人麻将 个人准备完毕 (后端)
- pyinstaller 打包生成.exe 可执行文件报错 “IndexError: tuple index out of range”