周志华《机器学习》——第一章习题讨论

来源:互联网 发布:power map for mac 编辑:程序博客网 时间:2024/05/22 13:04

1.1 表1.1中若只包含编号为1和4的两个样例,试给出相应的版本空间

版本空间概念:
版本空间(version space)是概念学习中与已知数据集一致的所有假设(hypothesis)的子集集合。
对于二维空间中的“矩形”假设(下图),绿色加号代表正类样本,红色小圈代表负类样本。 GB 是最大泛化正假设边界(maximally General positive hypothesis Boundary), SB 是最大精确正假设边界(maximally Specific positive hypothesis Boundary). GB与SB所围成的区域中的矩形即为版本空间中的假设,也即GB与SB围成的区域就是版本空间。
在一些需要对假设的泛化能力排序的情形下,就可以通过GB与SB这两个上下界来表示版本空间。在学习的过程中,学习算法就可以只在GB、SB这两个代表集合上操作。

假设空间应该如下:
1 色泽=*,根蒂=*,敲声=*
2 色泽=青绿,根蒂=*,敲声=*
3 色泽=乌黑,根蒂=*,敲声=*
4 色泽=*,根蒂=蜷缩,敲声=*
5 色泽=*,根蒂=硬挺,敲声=*
6 色泽=*,根蒂=稍蜷,敲声=*
7 色泽=*,根蒂=*,敲声=浊响
8 色泽=*,根蒂=*,敲声=清脆
9 色泽=*,根蒂=*,敲声=沉闷
10 色泽=青绿,根蒂=蜷缩,敲声=*
11 色泽=青绿,根蒂=硬挺,敲声=*
12 色泽=青绿,根蒂=稍蜷,敲声=*
13 色泽=乌黑,根蒂=蜷缩,敲声=*
14 色泽=乌黑,根蒂=硬挺,敲声=*
15 色泽=乌黑,根蒂=稍蜷,敲声=*
16 色泽=青绿,根蒂=*,敲声=浊响
17 色泽=青绿,根蒂=*,敲声=清脆
18 色泽=青绿,根蒂=*,敲声=沉闷
19 色泽=乌黑,根蒂=*,敲声=浊响
20 色泽=乌黑,根蒂=*,敲声=清脆
21 色泽=乌黑,根蒂=*,敲声=沉闷
22 色泽=*,根蒂=蜷缩,敲声=浊响
23 色泽=*,根蒂=蜷缩,敲声=清脆
24 色泽=*,根蒂=蜷缩,敲声=沉闷
25 色泽=*,根蒂=硬挺,敲声=浊响
26 色泽=*,根蒂=硬挺,敲声=清脆
27 色泽=*,根蒂=硬挺,敲声=沉闷
28 色泽=*,根蒂=稍蜷,敲声=浊响
29 色泽=*,根蒂=稍蜷,敲声=清脆
30 色泽=*,根蒂=稍蜷,敲声=沉闷
31 色泽=青绿,根蒂=蜷缩,敲声=浊响
32 色泽=青绿,根蒂=蜷缩,敲声=清脆
33 色泽=青绿,根蒂=蜷缩,敲声=沉闷
34 色泽=青绿,根蒂=硬挺,敲声=浊响
35 色泽=青绿,根蒂=硬挺,敲声=清脆
36 色泽=青绿,根蒂=硬挺,敲声=沉闷
37 色泽=青绿,根蒂=稍蜷,敲声=浊响
38 色泽=青绿,根蒂=稍蜷,敲声=清脆
39 色泽=青绿,根蒂=稍蜷,敲声=沉闷
40 色泽=乌黑,根蒂=蜷缩,敲声=浊响
41 色泽=乌黑,根蒂=蜷缩,敲声=清脆
42 色泽=乌黑,根蒂=蜷缩,敲声=沉闷
43 色泽=乌黑,根蒂=硬挺,敲声=浊响
44 色泽=乌黑,根蒂=硬挺,敲声=清脆
45 色泽=乌黑,根蒂=硬挺,敲声=沉闷
46 色泽=乌黑,根蒂=稍蜷,敲声=浊响
47 色泽=乌黑,根蒂=稍蜷,敲声=清脆
48 色泽=乌黑,根蒂=稍蜷,敲声=沉闷
49 Ø
引用书中原话“搜索过程中可以不断删除与正例不一致的假设、和(或)与反例一致的假设,最终将会获得与训练集一致(即对所有训练样本能够进行正确判断)的假设”
此时表1.1中的西瓜数据集为:
编号色泽根蒂敲声好瓜1青绿蜷缩浊响是4乌黑稍蜷沉闷否将数据集中数据与49种假设比对学习:
编号为1的数据可以删除假设可空间中的3、5、6、8、9、11-15、17-21、23-30、32-49
编号为4的数据可以删除剩下假设空间中的1
假设空间还剩下2、4、7、10、16、22、31
即为 色泽=青绿,根蒂=*,敲声=*
色泽=*,根蒂=蜷缩,敲声=*
色泽=*,根蒂=*,敲声=浊响
色泽=青绿,根蒂=蜷缩,敲声=*
色泽=青绿,根蒂=*,敲声=浊响
色泽=*,根蒂=蜷缩,敲声=浊响
色泽=青绿,根蒂=蜷缩,敲声=浊响
以上即为版本空间。



     





0 0