机器学习 周志华 第一章习题

来源:互联网 发布:网络西语培训 编辑:程序博客网 时间:2024/05/22 22:50

推荐一下个人博客

1.表1.1中若只包含编号为1,4的两个样例,试给出相应的版本空间。

假设数据集有n种属性,第i个属性可能的取值有ti种,加上该属性的泛化取值(*),所以可能的假设有
_i(t_i+1)
再用空集表示没有正例,假设空间中一共 i(ti+1)+1 种假设。
现实问题中常面临很大的假设空间,我们可以寻找一个与训练集一致的假设集合,称之为版本空间。版本空间从假设空间剔除了与正例不一致和与反例一致的假设,它可以看成是对正例的最大泛化。
版本空间的可以通过搜索假设空间来得到,这样需要遍历完整的假设空间。如果数据集中有正例,则可以先对一个正例进行最大泛化,得到2n个假设,然后再对这些假设进行剔除操作,可以适当精简计算量。
西瓜数据集(精简)

编号 色泽 根蒂 敲声 好瓜 1 青绿 蜷缩 浊响 是 2 乌黑 稍蜷 沉闷 否

数据集有3个属性,每个属性2种取值,一共 3∗3∗3+1=28种假设,分别为

1.色泽=青绿 根蒂=蜷缩 敲声=浊响  2.色泽=青绿 根蒂=蜷缩 敲声=沉闷  3.色泽=青绿 根蒂=稍蜷 敲声=浊响  4.色泽=青绿 根蒂=稍蜷 敲声=沉闷  5.色泽=乌黑 根蒂=蜷缩 敲声=浊响  6.色泽=乌黑 根蒂=蜷缩 敲声=沉闷  7.色泽=乌黑 根蒂=稍蜷 敲声=浊响  8.色泽=乌黑 根蒂=稍蜷 敲声=沉闷  9.色泽=青绿 根蒂=蜷缩 敲声=\*  10.色泽=青绿 根蒂=稍蜷 敲声=\*  11.色泽=乌黑 根蒂=蜷缩 敲声=\*  12.色泽=乌黑 根蒂=稍蜷 敲声=\*  13.色泽=青绿 根蒂=\* 敲声=浊响  14.色泽=青绿 根蒂=\* 敲声=沉闷  15.色泽=乌黑 根蒂=\* 敲声=浊响  16.色泽=乌黑 根蒂=\* 敲声=沉闷  17.色泽=\* 根蒂=蜷缩 敲声=浊响  18.色泽=\* 根蒂=蜷缩 敲声=沉闷  19.色泽=\* 根蒂=稍蜷 敲声=浊响  20.色泽=\* 根蒂=稍蜷 敲声=沉闷  21.色泽=青绿 根蒂=\* 敲声=\*  22.色泽=乌黑 根蒂=\* 敲声=\*  23.色泽=\* 根蒂=蜷缩 敲声=\*  24.色泽=\* 根蒂=稍蜷 敲声=\*  25.色泽=\* 根蒂=\* 敲声=浊响  26.色泽=\* 根蒂=\* 敲声=沉闷  27.色泽=\* 根蒂=\* 敲声=\*  28.空集Ø  

编号1的数据可以删除 2−8,10−12,14−16,18−20,22,24,26,28(不包含数据1)
编号1的数据可以删除 27(包含了数据2)
所以样本空间为:
1.色泽=青绿 根蒂=蜷缩 敲声=浊响
9.色泽=青绿 根蒂=蜷缩 敲声=*
13.色泽=青绿 根蒂=* 敲声=浊响
17.色泽=* 根蒂=蜷缩 敲声=浊响
21.色泽=青绿 根蒂=* 敲声=*
23.色泽=* 根蒂=蜷缩 敲声=*
25.色泽=* 根蒂=* 敲声=浊响

2.与使用单个合取式来进行假设表示相比,使用“析合范式”将使得假设空间具有更强的表示能力。若使用最多包含k个合取式的析合范式来表达1.1的西瓜分类问题的假设空间,试估算有多少种可能的假设。

样本空间包含4个样例,3种属性,假设空间中有3∗4∗4+1=49种假设。故共有 Ck49 种可能的析合范式。

3.若数据包含噪声,则假设空间中可能不存在与所有训练样本都一致的假设。在此情形下,试设计一种归纳偏好用于假设选择

可使用计算方法中矛盾方程组解法。

4.本章1.4节在论述“没有免费的午餐”定理时,默认使用了“分类错误率”作为性能度量来对分类器进行评估。若换用其他性能度量l,试证明没有免费的午餐”定理仍成立

E_ote(£_a|X,f)=_h_xχXP(χ)A(h(x),f(x))P(h|X,£_a)
其中 A(h(x),f(x)) 为性能度量函数,可见 A(h(x),f(x)) 只与真实目标函数f和假设h有关,而和算法产生假设h的概率无关,故对于不同算法依然有 _fE_ote(£_a|X,f)=_fE_ote(£_b|X,f)
Q.E.D

5.试述机器学习在互联网搜索的哪些环节起什么作用

  1. 推荐系统
  2. 相似图片搜索
  3. 文件检索