第一章—— 绪论知识点概括和习题详解

来源:互联网 发布:麒麟970 知乎 编辑:程序博客网 时间:2024/05/29 14:35

基本概念

1.每一条记录是一个示例,共同组成数据集。 示例具有属性(特征),属性的取值为属性值,所有示例的可能属性取值组成属性空间。每一个属性的各项取值可以组成一个坐标向量,所以可以把示例成为特征向量。

2.从数据中学的模型的过程为学习或者训练,通过执行某一个算法来完成。过程本身的目的就是实现贴近现实的假设。

3.样例是拥有标注的示例。

4.共两类学习任务:分类和回归。

5.归纳:特殊到一般,得出普适性的性质

  演绎:一般到特殊,根据已有的规律推测单一(特殊)样本的规律。

6.假设空间和版本空间

假设空间:全部假设。每种属性在考虑的时候需要考虑空集,最后还要加一个空集。

版本空集:从假设中删除两种示例,和正例不一致,和反例一致。

7.归纳偏好:算法在学习过程中对某种类型假设的偏好。

8.若有多个假设与观察一致,则选择最简单的那个。


习题

1.表1.1中若只包含编号为1,4的两个样例,试给出相应的版本空间

这道题共3个属性,每个属性共有两种取值,所以答案为3^3+1=28,但这样求出的是假设空间。接下来我们需要删除和正例不一致,以及和反例一致的示例。

以下为特征(偷懒,排列摘自其他人的blog,判断为本人所做):

  • 1.色泽=青绿 根蒂=蜷缩 敲声=浊响y
  • 2.色泽=青绿 根蒂=蜷缩 敲声=沉闷n
  • 3.色泽=青绿 根蒂=稍蜷 敲声=浊响n
  • 4.色泽=青绿 根蒂=稍蜷 敲声=沉闷n
  • 5.色泽=乌黑 根蒂=蜷缩 敲声=浊响n
  • 6.色泽=乌黑 根蒂=蜷缩 敲声=沉闷n
  • 7.色泽=乌黑 根蒂=稍蜷 敲声=浊响n
  • 8.色泽=乌黑 根蒂=稍蜷 敲声=沉闷n
  • 9.色泽=青绿 根蒂=蜷缩 敲声=*y
  • 10.色泽=青绿 根蒂=稍蜷 敲声=*n
  • 11.色泽=乌黑 根蒂=蜷缩 敲声=*n
  • 12.色泽=乌黑 根蒂=稍蜷 敲声=*n
  • 13.色泽=青绿 根蒂=* 敲声=浊响y
  • 14.色泽=青绿 根蒂=* 敲声=沉闷n
  • 15.色泽=乌黑 根蒂=* 敲声=浊响n
  • 16.色泽=乌黑 根蒂=* 敲声=沉闷n
  • 17.色泽=* 根蒂=蜷缩 敲声=浊响y
  • 18.色泽=* 根蒂=蜷缩 敲声=沉闷n
  • 19.色泽=* 根蒂=稍蜷 敲声=浊响n
  • 20.色泽=* 根蒂=稍蜷 敲声=沉闷n
  • 21.色泽=青绿 根蒂=* 敲声=*y
  • 22.色泽=乌黑 根蒂=* 敲声=*n
  • 23.色泽=* 根蒂=蜷缩 敲声=*y
  • 24.色泽=* 根蒂=稍蜷 敲声=*n
  • 25.色泽=* 根蒂=* 敲声=浊响y
  • 26.色泽=* 根蒂=* 敲声=沉闷n
  • 27.色泽=* 根蒂=* 敲声=*
  • 28.空集Ø
从里面开始进行删除。最后剩下了7个示例。

2.与使用单个合取式来进行假设表示相比,使用“析合范式”将使得假设空间具有更强的表示能力。若使用最多包含k个合取式的析合范式来表达1.1的西瓜分类问题的假设空间,试估算有多少种可能的假设。

析取式:用析取真值连接词“∨”将两个或两个以上的命题联结而成的一种命题形式
合取式:用合取真值连接词“∧”将两个或两个以上的命题联结而成的一种命题形式
 析合范式是析取的合取式。
    答案网址:
    http://blog.csdn.net/icefire_tyh/article/details/52065626
    只是先了解了概念性的东西,具体的代码过程还需要接着花时间去看。

    3.若数据包含噪声,则假设空间中可能不存在与所有训练样本都一致的假设。在此情形下,试设计一种归纳偏好用于假设选择

    自己的理解:不一致不代表不相似,只要找到最相似的分到一类问题就解决了。
    网上的思路:除了上述方法,还有一个简单粗暴的,就是将属性相似但是不同分类的示例都去掉,那么剩下的自然就是分界鲜明的两类示例,比对属性相似程度,进行分组。但这种方法,个人认为除了降低标准度,增大误差以外,还可能造成新的示例无法进行分类的情况。可能之前与之相似的示例都已经被删除了。

    之后的题目先都全部略过。


    原创粉丝点击