机器学习习题(4)
来源:互联网 发布:mac usb安装win7 编辑:程序博客网 时间:2024/06/06 12:26
1. 前言
今天状态还不错。
2. 习题1(SPSS基础)
SPSS的界面中,以下是主窗口是( )
A.语法编辑窗口
B.数据编辑窗口
C.结果输出窗口
D.脚本编辑窗口
正确答案:B
解析:SPSS是属于数据分析软件,当然主窗口是在数据编辑上。
3. 习题2(分类与聚类)
以下哪些方法不可以直接来对文本分类?
A.Kmeans
B.决策树
C.支持向量机
D.KNN
正确答案: A
解析:
聚类是无监督的,它之所以不能称为分类是因为它之前并没有类别标签,因此只能聚类。
复习一下K-means算法,主要分为赋值阶段和更新阶段。算法步骤:
(1)随机选择K个点作为初始的质心
(2)将每个点指配到最近的质心
(3)重新计算簇的质心,直到质心不再发生变化 。
K均值容易陷入局部最小值,无法表示类的形状,大小和宽度,是一种硬分类算法,针对它的这些缺点,提出了二分K均值和软K均值。
其他3个都是常见的分类方法。
4. 习题3(特征选择)
机器学习中做特征选择时,可能用到的方法有?
A.卡方
B.信息增益
C.平均互信息
D.期望交叉熵
正确答案:ABCD
解析:
卡方是传统的常见的数理统计学上的特征,信息增益在决策树中运用的特别多,互信息在新词发现上有用到,而交叉熵最常见的就是损失函数。
具体的,可以参考《卡方详解》、《信息增益详解》、《期望交叉熵详解》、《互信息详解》。另外,还有其他特征可以选择,详见《特征选择汇总》。
5. 习题4(分类与聚类)
以下描述错误的是:
A.SVM是这样一个分类器,他寻找具有最小边缘的超平面,因此它也经常被称为最小边缘分类器(minimal margin classifier)
B.在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。
C.在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题。
D.聚类分析可以看作是一种非监督的分类。
正确答案:ABC
解析:
A. SVM的策略是最大间隔分类器。
B. 簇内的相似性越大,簇间的差别越大,聚类的效果就越好。你想啊,分类或者聚类效果的好坏其实就看同一类中的样本相似度,当然是越高越好,说明你分类越准确。
C. 训练误差减少与测试误差逐渐增大,是明显的过拟合的特征。
6. 习题5(先验概率)
统计模式分类问题中,当先验概率未知时,可以使用()
A.最小最大损失准则
B.最小误判概率准则
C.最小损失准则
D.N-P判决
正确答案:AD
解析:
A. 考虑
B. 最小误判概率准则, 就是判断
C. 最小损失准则,在B的基础之上,还要求出
D. N-P判决,即限定一类错误率条件下使另一类错误率为最小的两类别决策,即在一类错误率固定的条件下,求另一类错误率的极小值的问题,直接计算
7. 小结
本章主要介绍了SPSS基础、分类与聚类问题、特征选择与概率论中先验概率的问题。
- 机器学习习题(4)
- 机器学习习题(1)
- 机器学习习题(2)
- 机器学习习题(3)
- 机器学习习题(5)
- 机器学习习题(6)
- 机器学习习题(7)
- 机器学习习题(8)
- 机器学习习题(9)
- 机器学习习题(10)
- 机器学习习题(11)
- 《机器学习(周志华)》 习题4.3答案
- 《机器学习 (周志华)》习题7.3答案
- 《机器学习(周志华)》习题10.1 答案
- 《机器学习(周志华)》习题3.3答案
- 《机器学习(周志华)》 习题5.5答案
- 《机器学习(周志华)》习题11.1 参考答案
- 《机器学习(周志华)》P19-习题1.1
- MXNet的训练实现脚本:module.py
- TS流PAT/PMT详解
- C++ 实现两个向量之间的夹角
- Fragmen静态加载
- httpd-2.4编译安装详解
- 机器学习习题(4)
- 子数组最大的累加和
- C#编程入门_进制转换_2
- QPixmap的使用+QSplashScreen的使用
- linux虚拟机配置jdk环境变量
- linux中安装ssh服务
- 使用Beautiful Soup进行查找
- Bootstrap(三)
- Java中字符串的操作