第一章—— 绪论知识点概括和习题详解
来源:互联网 发布:麒麟970 知乎 编辑:程序博客网 时间:2024/05/29 14:35
基本概念
1.每一条记录是一个示例,共同组成数据集。 示例具有属性(特征),属性的取值为属性值,所有示例的可能属性取值组成属性空间。每一个属性的各项取值可以组成一个坐标向量,所以可以把示例成为特征向量。
2.从数据中学的模型的过程为学习或者训练,通过执行某一个算法来完成。过程本身的目的就是实现贴近现实的假设。
3.样例是拥有标注的示例。
4.共两类学习任务:分类和回归。
5.归纳:特殊到一般,得出普适性的性质
演绎:一般到特殊,根据已有的规律推测单一(特殊)样本的规律。
6.假设空间和版本空间
假设空间:全部假设。每种属性在考虑的时候需要考虑空集,最后还要加一个空集。
版本空集:从假设中删除两种示例,和正例不一致,和反例一致。
7.归纳偏好:算法在学习过程中对某种类型假设的偏好。
8.若有多个假设与观察一致,则选择最简单的那个。
习题
1.表1.1中若只包含编号为1,4的两个样例,试给出相应的版本空间。
这道题共3个属性,每个属性共有两种取值,所以答案为3^3+1=28,但这样求出的是假设空间。接下来我们需要删除和正例不一致,以及和反例一致的示例。
以下为特征(偷懒,排列摘自其他人的blog,判断为本人所做):
- 1.色泽=青绿 根蒂=蜷缩 敲声=浊响y
- 2.色泽=青绿 根蒂=蜷缩 敲声=沉闷n
- 3.色泽=青绿 根蒂=稍蜷 敲声=浊响n
- 4.色泽=青绿 根蒂=稍蜷 敲声=沉闷n
- 5.色泽=乌黑 根蒂=蜷缩 敲声=浊响n
- 6.色泽=乌黑 根蒂=蜷缩 敲声=沉闷n
- 7.色泽=乌黑 根蒂=稍蜷 敲声=浊响n
- 8.色泽=乌黑 根蒂=稍蜷 敲声=沉闷n
- 9.色泽=青绿 根蒂=蜷缩 敲声=*y
- 10.色泽=青绿 根蒂=稍蜷 敲声=*n
- 11.色泽=乌黑 根蒂=蜷缩 敲声=*n
- 12.色泽=乌黑 根蒂=稍蜷 敲声=*n
- 13.色泽=青绿 根蒂=* 敲声=浊响y
- 14.色泽=青绿 根蒂=* 敲声=沉闷n
- 15.色泽=乌黑 根蒂=* 敲声=浊响n
- 16.色泽=乌黑 根蒂=* 敲声=沉闷n
- 17.色泽=* 根蒂=蜷缩 敲声=浊响y
- 18.色泽=* 根蒂=蜷缩 敲声=沉闷n
- 19.色泽=* 根蒂=稍蜷 敲声=浊响n
- 20.色泽=* 根蒂=稍蜷 敲声=沉闷n
- 21.色泽=青绿 根蒂=* 敲声=*y
- 22.色泽=乌黑 根蒂=* 敲声=*n
- 23.色泽=* 根蒂=蜷缩 敲声=*y
- 24.色泽=* 根蒂=稍蜷 敲声=*n
- 25.色泽=* 根蒂=* 敲声=浊响y
- 26.色泽=* 根蒂=* 敲声=沉闷n
- 27.色泽=* 根蒂=* 敲声=*
- 28.空集Ø
从里面开始进行删除。最后剩下了7个示例。
2.与使用单个合取式来进行假设表示相比,使用“析合范式”将使得假设空间具有更强的表示能力。若使用最多包含k个合取式的析合范式来表达1.1的西瓜分类问题的假设空间,试估算有多少种可能的假设。
析取式:用析取真值连接词“∨”将两个或两个以上的命题联结而成的一种命题形式
合取式:用合取真值连接词“∧”将两个或两个以上的命题联结而成的一种命题形式
析合范式是析取的合取式。
合取式:用合取真值连接词“∧”将两个或两个以上的命题联结而成的一种命题形式
析合范式是析取的合取式。
http://blog.csdn.net/icefire_tyh/article/details/52065626
只是先了解了概念性的东西,具体的代码过程还需要接着花时间去看。
3.若数据包含噪声,则假设空间中可能不存在与所有训练样本都一致的假设。在此情形下,试设计一种归纳偏好用于假设选择
自己的理解:不一致不代表不相似,只要找到最相似的分到一类问题就解决了。网上的思路:除了上述方法,还有一个简单粗暴的,就是将属性相似但是不同分类的示例都去掉,那么剩下的自然就是分界鲜明的两类示例,比对属性相似程度,进行分组。但这种方法,个人认为除了降低标准度,增大误差以外,还可能造成新的示例无法进行分类的情况。可能之前与之相似的示例都已经被删除了。
之后的题目先都全部略过。
阅读全文
0 0
- 第一章—— 绪论知识点概括和习题详解
- 数据结构习题——第一章 绪论
- 1、数据结构习题——第一章 绪论
- 第一章 绪论习题
- 第一章——绪论
- 第一章 绪论—引言
- 第一章 绪论习题参考答案
- 数据结构——第一章 《绪论》
- 第一章:绪论——>总结
- 数据结构——第一章 绪论
- 《现代操作系统(中文第三版)》课后习题——第一章 绪论
- 绪论和第一章
- 《数据结构习题与解析》第一章 绪论
- 第一章 绪论(及部分课后习题)
- 机器学习(周志华) 第一章-绪论 习题解答
- 胡说八道侃计算机——第一章绪论
- 数据——结构绪论(第一章)
- 数据结构笔记——第一章 绪论
- 已知一组数据,如何用matlab画出它的概率密度分布图
- mysql的默认编码Latin1改为支持中文编码的gbk
- Java内存泄露原因详解
- 【十】ArcGIS API for Javascript之专题图的制作(三)
- CSS的三大特性
- 第一章—— 绪论知识点概括和习题详解
- 基于TCP协议用多线程实现并发服务器,实现思路、算法和demo
- java面试基础-Java中HashMap的实现
- 《去哪网编程题》表达式合法判断
- JVM内存模型
- 使用seaborn画堆积柱状图
- 原码、反码、补码
- 状压dp 处理有相邻顺序的或者有序的状态压缩问题
- 例4.10 在派生类中定义同名成员