机器学习 周志华 读书笔记 第1章 绪论

来源:互联网 发布:飞凡 嵌入式淘宝网 编辑:程序博客网 时间:2024/06/07 19:20
一、
数据集,样本(示例),属性(特征),属性值,属性空间(样本空间、输入空间),特征向量,维数:
D={x1,x2,...,xm}
xi=(xi1;xi2;...;xid),xi∈X


数据集(data set):D
样本(sample)、示例(instance):xi
属性(attribute)、特征(feature):样本xi有d个属性
属性值(attribute value):xij
属性空间(attribute space)、样本空间(sample space)、输入空间:X
特征向量(feature vector):一个示例xi可以成为一个特征向量
维数(demensionality):d称为样本xi的维数


学习(learning)、训练(training):从数据中学得模型的过程
训练数据(training data):训练过程中使用的数据
训练样本(training sample):训练过程中的每一个样本
训练集(training set):训练样本组成的集合
学习器(learner):模型也可称为学习器


二、
标记,样例,标记空间(输出空间)
(xi,yi),yi∈Y


标记(label):获得训练样本的“结果”信息,yi
样例(example):拥有标记信息的示例,(xi,yi)
标记空间(label space)、输出空间:所有标记的集合Y


三、
学习任务:分类、回归
分类(classification):预测的是离散值
回归(regression):预测的是连续值
分类:二分类、多分类
二分类(binary classification):只涉及两个类别,称其中一个类为“正类”(positive class),另一个类为“反类”(negative class)
多分类(multi-class classification):涉及多个分类


测试(testing):学得模型后,使用其进行预测的过程
测试样本(testing sample):被预测的样本


聚类(clustering):将训练集中的样本分成若干组,每组称为一个“簇”(cluster)
聚类学习过程中,使用的训练样本通常不拥有标记信息


学习任务:监督学习,无监督学习
监督学习(supervised learning):训练数据拥有标记信息,如分类和回归
无监督学习(unsupervised learning):训练数据不拥有标记信息,如聚类


“泛化”能力(generalization):学得模型适用于新样本的能力


四、
假设空间(hypothesis space):模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间
版本空间(version space):概念学习中与已知数据集一致的所有假设的子集集合
学习过程中,可以不断删除与正例不一致的假设、和(或)与反例一致的假设,最终获得对所有训练样本能够进行正确判断的假设,即学得结果。


归纳偏好(inductive bias):机器学习算法在学习过程中对某种类型假设的偏好
“奥多姆剃刀”(Occam's razor):若有多个假设与观察一致,则选最简单的那个
“没有免费的午餐”定理(No Free Lunch Theorem)(NFL定理):由于对所有可能函数的相互补偿,最优化算法的性能是等价的
0 0
原创粉丝点击