机器学习笔记一

来源:互联网 发布:明星网络暴力 编辑:程序博客网 时间:2024/05/22 11:48

机器学习笔记

刚刚接触机器学习,在看周志华那本西瓜书,做了一些笔记。
机器学习符号以及读法


基本术语

  • 取值为:=
  • 样本: 每条记录是关于一个对象的描述
  • 数据集: 一组数据的集合
  • 特征/属性: 反映事件或对象在某些方面的表现或性质的事项
  • 属性值: 属性上面取值
  • 样本空间: 属性张成的空间
  • 数据集: D = {x1,x2...xm}
  • 向量: Xi = (Xi1;Xi2;...Xid)
  • 学习/训练: 从数据中学得模型的过程
  • 训练数据: 训练过程使用的数据
  • 训练样本: 每个样本
  • 假设 学得模型对应了关于数据的某种潜在的规律
  • 真相/真实: 潜在规律自身
  • 分类:预测的是离散值 好/坏
  • 回归: 预测的是连续值
  • 涉及两个类别的“二分类”任务通常称其中一个类为“正类”另一个类为“反类”
  • 测试:学得模型后进行预测的过程
  • 测试样本:被预测的样本
  • 泛化能力:“学得模型适用于新样本的能力
学习任务
监督学习
分类
回归
无监督学习
聚类

学习过程就是为了找出或逼近真相
机器学习的目标是使得学得的模型能很好的适用于“新样本”

假设空间

科学推理
归纳->从特殊到一般的“泛化”过程
演绎->从一般到特殊的“特化”过程

归纳学习:
广义上定义:从样例中学习
狭义上定义:从训练数据中学得概念

概念学习中最基本的是布尔概念学习

版本空间:可能有多个假设与训练集一致,即存在着一个与训练集一致的“假设集合”(学得的结果)

归纳偏好

机器学习算法在学习过程中对某种类型假设的偏好

奥卡姆剃刀——引导算法确立“正确的”偏好
(若有多个假设与观察一致,则选择最简单的那个)

没有免费的午餐定理(NFL定理)

无论学习算法ξa多么聪明,ξb多笨拙,他们的期望性能相同
前提:所有“问题”出现的机会相同,或所有问题同等重要
结论:由于对所有可能函数的相互补偿,最优化算法的性能是等价的
暗指:没有其他任何算法能够比搜索空间列举或者纯随机搜索算法更优

原创粉丝点击