机器学习(周志华) 参考答案第一章绪论

来源：互联网发布：好玩的网络足球游戏编辑：程序博客网时间：2024/06/05 18:43

原文地址：http://blog.csdn.net/icefire_tyh/article/details/52065224

机器学习(周志华) 参考答案第一章绪论

机器学习(周志华西瓜书) 参考答案总目录

http://blog.csdn.net/icefire_tyh/article/details/52064910

1.表1.1中若只包含编号为1，4的两个样例，试给出相应的版本空间。

假设空间指的是问题所有假设组成的空间，我们可以把学习过程看作是在假设空间中搜索的过程，搜索目标是寻找与训练集“匹配”的假设。

假设数据集有n种属性，第i个属性可能的取值有ti种，加上该属性的泛化取值(*)，所以可能的假设有∏i(ti+1)。再用空集表示没有正例，假设空间中一共∏i(ti+1)+1种假设。
现实问题中常面临很大的假设空间，我们可以寻找一个与训练集一致的假设集合，称之为版本空间。版本空间从假设空间剔除了与正例不一致和与反例一致的假设，它可以看成是对正例的最大泛化。
版本空间的可以通过搜索假设空间来得到，这样需要遍历完整的假设空间。如果数据集中有正例，则可以先对一个正例进行最大泛化，得到2n个假设，然后再对这些假设进行剔除操作，可以适当精简计算量。
西瓜数据集（精简）

编号色泽根蒂敲声好瓜1青绿蜷缩浊响是2乌黑稍蜷沉闷否

数据集有3个属性，每个属性2种取值，一共 3∗3∗3+1=28种假设，分别为

1.色泽=青绿根蒂=蜷缩敲声=浊响
2.色泽=青绿根蒂=蜷缩敲声=沉闷
3.色泽=青绿根蒂=稍蜷敲声=浊响
4.色泽=青绿根蒂=稍蜷敲声=沉闷
5.色泽=乌黑根蒂=蜷缩敲声=浊响
6.色泽=乌黑根蒂=蜷缩敲声=沉闷
7.色泽=乌黑根蒂=稍蜷敲声=浊响
8.色泽=乌黑根蒂=稍蜷敲声=沉闷
9.色泽=青绿根蒂=蜷缩敲声=*
10.色泽=青绿根蒂=稍蜷敲声=*
11.色泽=乌黑根蒂=蜷缩敲声=*
12.色泽=乌黑根蒂=稍蜷敲声=*
13.色泽=青绿根蒂=* 敲声=浊响
14.色泽=青绿根蒂=* 敲声=沉闷
15.色泽=乌黑根蒂=* 敲声=浊响
16.色泽=乌黑根蒂=* 敲声=沉闷
17.色泽=* 根蒂=蜷缩敲声=浊响
18.色泽=* 根蒂=蜷缩敲声=沉闷
19.色泽=* 根蒂=稍蜷敲声=浊响
20.色泽=* 根蒂=稍蜷敲声=沉闷
21.色泽=青绿根蒂=* 敲声=*
22.色泽=乌黑根蒂=* 敲声=*
23.色泽=* 根蒂=蜷缩敲声=*
24.色泽=* 根蒂=稍蜷敲声=*
25.色泽=* 根蒂=* 敲声=浊响
26.色泽=* 根蒂=* 敲声=沉闷
27.色泽=* 根蒂=* 敲声=*
28.空集Ø
编号1的数据可以删除 2−8，10−12，14−16，18−20，22，24，26，28(不包含数据1)
编号1的数据可以删除 27(包含了数据2)
所以版本空间为:
1.色泽=青绿根蒂=蜷缩敲声=浊响
9.色泽=青绿根蒂=蜷缩敲声=*
13.色泽=青绿根蒂=* 敲声=浊响
17.色泽=* 根蒂=蜷缩敲声=浊响
21.色泽=青绿根蒂=* 敲声=*
23.色泽=* 根蒂=蜷缩敲声=*
25.色泽=* 根蒂=* 敲声=浊响
一般情况下版本空间是正例的泛化，但由于数据集中只有1个正例，所以在版本空间中依然包含了这个样本的假设(假设1)。

2.与使用单个合取式来进行假设表示相比，使用“析合范式”将使得假设空间具有更强的表示能力。若使用最多包含k个合取式的析合范式来表达1.1的西瓜分类问题的假设空间，试估算有多少种可能的假设。

http://blog.csdn.net/icefire_tyh/article/details/52065626

3.若数据包含噪声，则假设空间中可能不存在与所有训练样本都一致的假设。在此情形下，试设计一种归纳偏好用于假设选择

通常认为两个数据的属性越相近，则更倾向于将他们分为同一类。若相同属性出现了两种不同的分类，则认为它属于与他最临近几个数据的属性。也可以考虑同时去掉所有具有相同属性而不同分类的数据，留下的数据就是没误差的数据，但是可能会丢失部分信息。

4.本章1.4节在论述“没有免费的午餐”定理时，默认使用了“分类错误率”作为性能度量来对分类器进行评估。若换用其他性能度量l,试证明没有免费的午餐”定理仍成立

还是考虑二分类问题，NFL首先要保证真是目标函数f均匀分布，对于有X个样本的二分类问题，显然f共有2X种情况。其中一半是与假设一致的，也就P(f(x)=h(x))=0.5。
此时， ∑fl(h(x),f(x))=0.5∗2X∗(l(h(x)=f(x))+l(h(x)≠f(x)))
l(h(x)=f(x))+l(h(x)≠f(x))应该是个常数，隐含的条件就该是(一个比较合理的充分条件)l(0,0)=l(1,1),l(1,0)=l(0,1)。如果不满足， NFL 应该就不成立了(或者不那么容易证明)。

5.试述机器学习在互联网搜索的哪些环节起什么作用

1.最常见的，消息推送，比如某东经常说某些商品我可能会感兴趣，然而并没有。
2.网站相关度排行，通过点击量，网页内容进行综合分析。
3.图片搜索，现在大部分还是通过标签来搜索，不过基于像素的搜索也总会有的吧。

0 0

机器学习(周志华) 参考答案 第一章 绪论

原文地址：http://blog.csdn.net/icefire_tyh/article/details/52065224

机器学习(周志华) 参考答案 第一章 绪论

1.表1.1中若只包含编号为1，4的两个样例，试给出相应的版本空间。

2.与使用单个合取式来进行假设表示相比，使用“析合范式”将使得假设空间具有更强的表示能力。若使用最多包含k个合取式的析合范式来表达1.1的西瓜分类问题的假设空间，试估算有多少种可能的假设。

3.若数据包含噪声，则假设空间中可能不存在与所有训练样本都一致的假设。在此情形下，试设计一种归纳偏好用于假设选择

4.本章1.4节在论述“没有免费的午餐”定理时，默认使用了“分类错误率”作为性能度量来对分类器进行评估。若换用其他性能度量l,试证明没有免费的午餐”定理仍成立

5.试述机器学习在互联网搜索的哪些环节起什么作用

机器学习(周志华) 参考答案第一章绪论

机器学习(周志华) 参考答案第一章绪论