BAT机器学习面试题及解析(251-255题)
来源:互联网 发布:农村淘宝网 编辑:程序博客网 时间:2024/05/20 23:33
251.我们建立一个5000个特征, 100万数据的机器学习模型. 我们怎么有效地应对这样的大数据训练 :
A. 我们随机抽取一些样本, 在这些少量样本之上训练
B. 我们可以试用在线机器学习算法
C. 我们应用PCA算法降维, 减少特征数
D. B 和 C
E. A 和 B
F. 以上所有
答案: F
252.我们想要减少数据集中的特征数, 即降维. 选择以下适合的方案 :
1. 使用前向特征选择方法
2. 使用后向特征排除方法
3. 我们先把所有特征都使用, 去训练一个模型, 得到测试集上的表现. 然后我们去掉一个特征, 再去训练, 用交叉验证看看测试集上的表现. 如果表现比原来还要好, 我们可以去除这个特征.
4. 查看相关性表, 去除相关性最高的一些特征
A. 1 和 2
B. 2, 3和4
C. 1, 2和4
D. All
答案: D
1.前向特征选择方法和后向特征排除方法是我们特征选择的常用方法
2.如果前向特征选择方法和后向特征排除方法在大数据上不适用, 可以用这里第三种方法.
3.用相关性的度量去删除多余特征, 也是一个好方法
所有D是正确的
253.对于随机森林和GradientBoosting Trees, 下面说法正确的是:
1.在随机森林的单个树中, 树和树之间是有依赖的, 而GradientBoosting Trees中的单个树之间是没有依赖的.
2.这两个模型都使用随机特征子集, 来生成许多单个的树.
3.我们可以并行地生成GradientBoosting Trees单个树, 因为它们之间是没有依赖的, GradientBoosting Trees训练模型的表现总是比随机森林好
A. 2
B. 1 and 2
C. 1, 3 and 4
D. 2 and 4
答案: A
1.随机森林是基于bagging的, 而Gradient Boosting trees是基于boosting的, 所有说反了,在随机森林的单个树中, 树和树之间是没有依赖的, 而GradientBoosting Trees中的单个树之间是有依赖关系.
2.这两个模型都使用随机特征子集, 来生成许多单个的树.
所有A是正确的
254.对于PCA(主成分分析)转化过的特征 , 朴素贝叶斯的”不依赖假设”总是成立, 因为所有主要成分是正交的, 这个说法是 :
A. 正确的
B. 错误的
答案: B.
这个说法是错误的, 首先, “不依赖”和”不相关”是两回事, 其次, 转化过的特征, 也可能是相关的
255.对于PCA说法正确的是 :
1. 我们必须在使用PCA前规范化数据
2. 我们应该选择使得模型有最大variance的主成分
3. 我们应该选择使得模型有最小variance的主成分
4. 我们可以使用PCA在低维度上做数据可视化
A. 1, 2 and 4
B. 2 and 4
C. 3 and 4
D. 1 and 3
E. 1, 3 and 4
答案: A
1)PCA对数据尺度很敏感, 打个比方, 如果单位是从km变为cm, 这样的数据尺度对PCA最后的结果可能很有影响(从不怎么重要的成分变为很重要的成分).
2)我们总是应该选择使得模型有最大variance的主成分
3)有时在低维度上左图是需要PCA的降维帮助的
往期题目:
BAT机器学习面试1000题系列(第1~60题)
BAT机器学习面试1000题系列(第61~100题)
BAT机器学习面试1000题系列(第101~200题)
BAT机器学习面试1000题系列(第201~250题)
课程咨询|微信:julyedukefu
七月热线:010-82712840
- BAT机器学习面试题及解析(251-255题)
- BAT机器学习面试题及解析
- BAT机器学习面试题及解析(256-260题)
- BAT机器学习面试题及解析(261-265题)
- BAT机器学习面试题及解析(266-270题)
- BAT机器学习面试题及解析(271-275题)
- BAT机器学习面试题及解析(281-285题)
- BAT机器学习面试题及解析(286-290题)
- BAT机器学习面试题及解析(291-295题)
- BAT机器学习面试题
- BAT面试题精选 | 一个完整机器学习项目的流程(视频)
- 机器学习面试题
- 机器学习面试题
- 机器学习面试题
- 机器学习面试题
- 机器学习面试题
- 机器学习面试题
- Java面试题及解析(判断题)
- BAT题库 | 机器学习面试1000题系列(第236~240题)
- 4、@ConfigurationProperties和@EnableConfigurationProperties配合使用
- 不到500行Python代码,能写出什么?
- 线索化二叉树&&线索化后的二叉树遍历
- java Random.nextInt()方法
- BAT机器学习面试题及解析(251-255题)
- 机器学习面试的考察点有哪些?看这张表自测
- 比12306快!用Python写一个火车票查看器~
- 动手写机器学习算法:SVM支持向量机(附代码)
- SDSOC简介
- 工作一年的心得体会
- 如何做个小冰那样成功的聊天机器人
- mongodb的坑
- 使用yum时显示被另一个app占用解决方法