基于《机器学习》学习整理- chapter 1
来源:互联网 发布:湄公河大案泰国 知乎 编辑:程序博客网 时间:2024/04/30 15:37
基于《机器学习》学习整理- chapter 1
@(机器学习)[数据]
- 基于机器学习学习整理- chapter 1
- 数据
- 假设空间
- 归纳与偏好
- 基于机器学习学习整理- chapter 1
数据
机器学习的基本-数据,记录的集合-数据集。其中每条记录是一个实体的描述或者实例。通常每个实例又会有自己的属性特征,用一组不同的属性特征来从不同的方面来描述该实例,这些属性特征可以对应不同的特征值,那么就可以形成描述实例的”特征向量”。
简单的代数描述:
数据集D = {
若每个实例又有d个属性描述,则每个实例
其中
- 训练集:训练样本组成的数据集;
- 假设:学得模型对应了关于数据的某种潜在的规律;
- 模型:学习器,可看作是学习算法在给定数据和参数空间上的实例化。
分类和回归和聚类
若我们预测的是离散值,此类学习任务即为分类,classification;若我们预测的是连续值,此类学习任务即为回归,regression;这两类是监督学习(supervised learning)的代表,聚类是无监督学习(unsupervised learning)的代表。
一般地,预测任务是希望通过对训练数据集{
一般而言,学得模型适用于新样本的能力,成为”泛化能力“,具有强泛化能力的模型能很好地适用于整个样本空间。通常假设样本空间中全体样本服从一个未知分布
假设空间
归纳学习
从样例中学习归纳,狭义上又称为概念学习或概念形成。其中最基本的是布尔概念学习,可表示为0/1布尔值的目标概念的学习。
学习过程
学习过程看作是一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集匹配的假设,即能够将训练集中的样例判断正确的假设。假设的表示一旦确定,那么假设空间及规模大小就确定了。
学习的过程是基于有限样本训练集进行的,因此,可能有多个假设与训练集一致,即存在着一个与训练集一致的”假设集合”,称之为”版本空间“(version space).
归纳与偏好
机器学习算法在学习过程中对某种类型假设的偏好,称为”归纳偏好“(inductive bias)。
归纳偏好的作用,要学得一个与训练集一致的模型,相当于找到一条穿过所有训练样本点的曲线,显然,对于有限个样本组成的训练集,存在着很多条曲线与其一致。我们的学习算法必须有某种偏好,才能产出它认为”正确的”模型。
奥卡姆剃刀(Occam’s razor)
一种常用的、自然科学研究中最基本的原则,即若有多个假设与观察一致,则选最简单的那个。
NFL定理
为简单起见,假设样本空间
χ 和假设空间H 都是离散的,令P(h|X,Ea) 代表算法Ea 基于训练数据X 产生假设h的概率,再令f 代表我们希望学习的真实函数,Ea 的训练集外误差,即Ea 在训练集之外的所有样本上的误差为:
Eote(Ea|X,f)=∑h∑x∈χ−XP(x)Ⅱ(h(x)≠f(x))P(h|X,Ea)
其中Ⅱ(.)是指示函数,若.为真是取1,否则取0.
若f 均匀分布,则有一半的f 对x 的预测与h(x) 不一致。
Eote(Ea|X,f)=2|χ|−1∑x∈χ−XP(x)
总误差竟然与学习算法无关!对于任意两个学习算法Ea 和Eb ,我们都有
∑fEote(Ea|X,f)=∑fEote(Eb|X,f)
这就是”没有免费的午餐”定理(No free Lunch Theorem,简称NFL定理).
前提:所有问题出现的机会相同、或所有问题都同等重要。
- 基于《机器学习》学习整理- chapter 1
- 基于《机器学习》学习整理- chapter 2
- 基于《机器学习》学习整理- chapter 3
- 基于《机器学习》学习整理- chapter 4
- 基于《机器学习》学习整理- chapter 5
- 机器学习实战--chapter 1
- 熟悉机器学习术语,西瓜书概念整理(chapter 1-2)
- 机器学习Chapter-1(线性模型)
- 机器学习整理笔记——基于《机器学习实战》
- 【Stanford机器学习笔记】5-Review for Chapter 1-4
- 机器学习实战--chapter 5 Logistic Regression(1)
- 机器学习概念整理
- 机器学习资源整理
- 机器学习资料整理
- 机器学习资料整理
- 机器学习资料整理
- 机器学习个人资料整理
- 机器学习实用整理
- Dynamic Programming
- MyBatis自动生成
- 大话商学院(1)--卖iPad给小孩一定要从父母的教育账户里掏钱
- python中pandas包学习笔记(1)
- Pinctrl-bindings.txt
- 基于《机器学习》学习整理- chapter 1
- Spring Boot+Maven 工程配置h2内存数据库
- WCF接口、抽象类等数据契约传递方式
- Linux常用搜索命令grep命令
- mysql 5.7.13 安装配置方法图文教程(linux)
- 如何将逻辑中后面算出的数据提前输出-- 计数的范围素数
- 正则化的意义
- java script 初识
- JVM 垃圾回收器工作原理及使用实例介绍