周志华 《机器学习》学习笔记系列一(绪论第一章+第二章)
来源:互联网 发布:国家大数据专业委员会 编辑:程序博客网 时间:2024/06/15 21:53
本系列是根据清华大学出版,南京大学周志华教授撰写的《机器学习》教材的编写的学习笔记。现在正处于研一阶段,刚接触机器学习方向,很多知识都只是结合自己浅显的理解,但是我相信我会慢慢的越来越厉害~~~
本篇主要介绍了该教材前两个章节的主要知识点。
1.绪论
1.1基本术语
假设我们收集了一批西瓜的数据,例如:(色泽=青绿; 根蒂=蜷缩; 敲声=浊响), (色泽=乌黑; 根蒂=稍蜷; 敲声=沉闷), (色泽=浅自; 根蒂=硬挺; 敲声=清脆)……每对括号内是一个西瓜的记录,定义:
①所有记录的集合为:数据集。每一条记录称为一个示例(instance)或样本(sample)。
色泽或敲声,称为特征(feature)或属性(attribute),青绿乌黑为相对应的属性值。
②每一条记录(如“色泽”“根蒂”“敲声”)可以在坐标轴上用三维空间表示,每个西瓜都可以在空间中用一个点表示,一个点也是一个向量,即每个西瓜为:一个特征向量(feature vector)。
③一个样本的特征数为:维数(dimensionality),即该西瓜的例子维数为3。
④训练过程中的样本称为一个“训练样本”,同时在训练好模型后,使其预测的过程为“测试”,每一个被预测的新的样本称为一个“测试样本”。
所有训练样本的集合为:训练集(trainning set),[特殊]。
所有测试样本的集合为:测试集(test set),[一般]。
机器学习出来的模型适用于新样本的能力为:泛化能力(generalization),即从特殊到一般。
在上述西瓜的例子中,我们是想计算机通过学习西瓜的特征数据,训练出一个学习模型,来判断一个新的西瓜的好与坏。
预测值为离散值的问题为:分类(classification)。例:西瓜是好瓜?西瓜是坏瓜?
预测值为连续值的问题为:回归(regression)。 例:西瓜的成熟度是0.5?0.7?
在预测过程中,对已有训练集中的西瓜,我们事先便知道了该瓜是否是好瓜,学习器通过学习这些特征,从而总结出规律,即事先准备好了"标记信息"。
但是,例如:未知的某堆西瓜,我们想分辨出好与坏,只能分成若干个组,样本是没有标记信息。
训练数据有标记信息的学习任务为:监督学习(supervised learning),包括分类和回归。
训练数据没有标记信息的学习任务为:无监督学习(unsupervised learning),常见的有聚类和关联规则。
2.模型评估与选择
2.1经验误差与过拟合
①误差:实际预测结果与样本的真实值之间的差异。在训练集上的误差称为训练误差(training error)或经验误差(empirical error)。
在测试集上的误差称为测试误差(test error)。
学习器在所有新样本上的误差称为泛化误差(generalization error)。
② 显然,我们想要得到泛化误差小的学习器,但“太好了”也不好。
学习能力过强,把训练样本自身特点当作潜在样本的一般性质 ,称为:过拟合(overfitting)。
学习能力太差,训练样本的一般性质没有学好,称为:欠拟合(underfitting)。
2.2评估方法
测试集应该尽可能与训练集互斥。例:老师上课教会10道题,考试又考这十道题,结果全对,却看不出来学生的学习能力。所以应该对数据集进行相应的互斥划分。
2.2.1留出法
将数据集D划分为两个互斥的集合,一个作为训练集S,一个作为测试集T,满足D=S∪T且S∩T=∅,常见的划分为:大约2/3-4/5的样本用作训练,剩下的用作测试。
注意:训练/测试集的划分要尽可能保持数据分布的一致性,以避免由于分布的差异引入偏差,常见的做法是采取分层抽样。
同时,由于划分的随机性,单次的留出法结果往往不够稳定,一般要采用若干次随机划分,重复实验取平均值的做法。
2.2.2 交叉验证法
将数据集D划分为k个大小相同的互斥子集,满足D=D1∪D2∪…∪Dk,Di∩Dj=∅(i≠j),同样地尽可能保持数据分布的一致性,即从D中采用分层抽样。
交叉验证法的思想是:每次用k-1个子集的并集作为训练集,余下的那个子集作为测试集,即有K种训练集/测试集划分的情况,进行k次训练和测试,返回k次测试结果的均值。
交叉验证法也称“k折交叉验证”,k最常用的取值是10,下图给出了10折交叉验证的示意图。
将数据集D划分为K个子集的过程具有随机性,因此K折交叉验证通常也要重复p次,称为p次k折交叉验证,常见的是10次10折交叉验证,即进行了100次训练/测试。
“留一法”:划分的k个子集的每个子集中只有一个样本。显然,留一法的评估结果比较准确,但对计算机消耗大。
2.2.3 自助法(bootstrapping)
由于留出法和交叉验证法会使得训练集比数据集少,导致结果有误差,所以给出了自助取样法。
基本思想是:即随机m次有放回取样。可以得知在m次采样中,样本始终不被采到的概率取极限为:
通过自助采样,初始样本集D中大约有36.8%的样本没有出现在D’中,于是可以将D’作为训练集,D-D’作为测试集。
自助法在数据集较小,难以有效划分训练集/测试集时很有用,但由于自助法产生的数据集(随机抽样)改变了初始数据集的分布,因此引入了估计偏差。在初始数据集足够时,留出法和交叉验证法更加常用。
2.3 调参
大多数学习算法都有些参数(parameter) 需要设定,参数配置不同,学得模型的性能往往有显著差别,这就是通常所说的”参数调节”或简称”调参” (parameter tuning)。
通过调参,得到不同的训练模型,但对每种参数取值都训练出模型来是不可行的。常用的做法是:对每个参数选定一个范围和步长λ,这样使得学习的过程变得可行。
例如:假定算法有3 个参数,每个参数仅考虑5个候选值,这样对每一组训练/测试集就有5*5*5= 125 个模型需考察,由此可见:减少参数范围的同时,又简单高效。
注:当选定好模型和调参完成后,我们需要使用初始的数据集D重新训练模型,即让最初划分出来用于评估的测试集也被模型学习,增强模型的学习效果。
即对应于每个参数和模型,都要使用上一次的所有的数据集再次实验。
- 周志华 《机器学习》学习笔记系列一(绪论第一章+第二章)
- 《机器学习》(周志华)第一章 绪论
- 第一章 绪论-机器学习(周志华)参考答案
- [机器学习 - 周志华] - 第一章 绪论
- (一)数据库学习笔记 第一章 绪论
- 机器学习-学习笔记 绪论(一)
- 《机器学习》周志华学习笔记——第一章 绪论
- 机器学习 第一章 绪论
- 机器学习笔记(一):绪论
- 机器学习笔记(一)绪论
- 机器学习(周志华) 参考答案 第一章绪论
- 机器学习(周志华) 参考答案 第一章绪论 1.2
- <机器学习>(周志华)读书笔记 -- 第一章 绪论
- 【机器学习】周志华 第一章绪论含答案
- 机器学习(周志华) 参考答案 第一章 绪论
- 机器学习(周志华) 第一章-绪论 习题解答
- 周志华《机器学习》读书笔记--第一章 绪论
- 第一章《绪论》学习笔记
- IIS发布网页
- 如何区分数据和指令
- 商业智能可视化决策平台
- Android数据库大批量数据插入优化
- 用java实现计算器功能
- 周志华 《机器学习》学习笔记系列一(绪论第一章+第二章)
- Paths(树上的贪心)
- BeanComparator类的根据多个属性进行排序
- python __new__和__del__方法 spyder中运行结果不一致
- java 随笔记录(一)
- 基于CABasicAnimation 制作水波纹动画
- Mybatis使用
- qq授权登录。微信授权登录、微博授权登录
- 【6】git 中级技能(下)