笔试题2——机器学习

来源：互联网发布：模拟星空软件中文版编辑：程序博客网时间：2024/06/06 19:50

--------------------------------------------------牛客网机器学习习题------------------------------------------------------------

深度学习 vs 机器学习 vs 模式识别

模式识别：智能程序的诞生。

机器学习：从样本中学习的智能程序。

深度学习：一统江湖的架构。受宠爱最多的就是被用在大规模图像识别任务中的卷积神经网络

1）机器学习就像是一个真正的冠军一样持续昂首而上；

2）模式识别一开始主要是作为机器学习的代名词；模式识别正在慢慢没落和消亡；

3）深度学习是个崭新的和快速攀升的领域。

1. SVM经常使用的核函数有：(1)线性核函数(2)多项式核(3)径向基核（RBF）(4)傅里叶核(5)样条核(6)Sigmoid核函数

2. 序列模式挖掘算法：指挖掘相对时间或其他模式出现频率高的模式，典型的应用还是限于离散型的序列。

Apriori类算法包括： AprioriAll和 GSP等。

在序列模式挖掘中，FreeSpan和PrefixSpan是两个常用的算法。其中，PrefixSpan是从FreeSpan中推导演化而来的。这两个算法都比传统的Apriori-like的序列模式挖掘算法（GSP）都有效。而PrefixSpan又比FreeSpan又更有效。这是因为PrefixSpan的收缩速度比FreeSpan还要更快些。

典型应用：商场挖掘即用户几次购买行为间的联系，可以采取更有针对性的营销措施。

类似于Apriori算法大体分为候选集产生、候选集计数以及扩展分类三个阶段。与AprioriAll算法相比，GSP算法统计较少的候选集，并且在数据转换过程中不需要事先计算频繁集。

3. 序列模式 VS 关联规则

问题

序列模式挖掘

关联规则挖掘

数据集

序列数据库

事务数据库

关注点

单项间在同一事务内以及事务间的关系

单项间在同一事务内的关系

4. 类域界面方程法中，求线性不可分情况下分类问题近似或精确解的方法是？

5.特征选择方法：信息增益、信息增益率、基尼系数

6. 基于核的算法：支持向量机（Support Vector Machine， SVM），径向基函数（Radial Basis Function ，RBF)，线性判别分析（Linear Discriminate Analysis ，LDA)等

7. 数据清理中，处理缺失值的方法是?

数据清理中，处理缺失值的方法有两种：

删除法：1）删除观察样本

2）删除变量：当某个变量缺失值较多且对研究目标影响不大时，可以将整个变量整体删除

3）使用完整原始数据分析：当数据存在较多缺失而其原始数据完整时，可以使用原始数据替代现有数据进行分析

4）改变权重：当删除缺失数据会改变数据结构时，通过对完整数据按照不同的权重进行加权，可以降低删除缺失数据带来的偏差

查补法：均值插补、回归插补、抽样填补等

成对删除与改变权重为一类，估算与查补法为一类

8. 下列哪个不属于CRF模型对于HMM和MEMM模型的优势（）B

A. 特征灵活 B. 速度快 C. 可容纳较多上下文信息 D. 全局最优

首先，CRF，HMM(隐马模型)，MEMM(最大熵隐马模型)都常用来做序列标注的建模.

隐马模型一个最大的缺点就是由于其输出独立性假设，导致其不能考虑上下文的特征，限制了特征的选择

最大熵隐马模型则解决了隐马的问题，可以任意选择特征，但由于其在每一节点都要进行归一化，所以只能找到局部的最优值，同时也带来了标记偏见的问题，即凡是训练语料中未出现的情况全都忽略掉

条件随机场则很好的解决了这一问题，他并不在每一个节点进行归一化，而是所有特征进行全局归一化，因此可以求得全局的最优值。

9. KNN和K-Means的区别

KNN

K-Means

1.KNN是分类算法

2.监督学习

3.喂给它的数据集是带label的数据，已经是完全正确的数据

1.K-Means是聚类算法

2.非监督学习

3.喂给它的数据集是无label的数据，是杂乱无章的，经过聚类后才变得有点顺序，先无序，后有序

没有明显的前期训练过程，属于memory-based learning有明显的前期训练过程K的含义：来了一个样本x，要给它分类，即求出它的y，就从数据集中，在x附近找离它最近的K个数据点，这K个数据点，类别c占的个数最多，就把x的label设为cK的含义：K是人工固定好的数字，假设数据集合可以分为K个簇，由于是依靠人工定好，需要一点先验知识

相似点：都包含这样的过程，给定一个点，在数据集中找离它最近的点。即二者都用到了NN(Nears Neighbor)算法，一般用KD树来实现NN。

10. 以下哪个是常见的时间序列算法模型B

A. RSIB. MACDC. ARMAD. KDJ

时间序列模型是指采用某种算法（可以是神经网络、ARMA等）模拟历史数据，找出其中的变化规律

时间序列算法模型主要有：移动平均算法、指数平滑算法及ARMA、ARIMA方法。

A,C ,D更像一个指标

11. 下列时间序列模型中,哪一个模型可以较好地拟合波动性的分析和预测D

A. AR模型B. MA模型C. ARMA模型D. GARCH模型

AR模型是一种线性预测，即已知N个数据，可由模型推出第N点前面或后面的数据（设推出P点），所以其本质类似于插值，其目的都是为了增加有效数据，只是AR模型是由N点递推，而插值是由两点（或少数几点）去推导多点，所以AR模型要比插值方法效果更好。

MA模型(moving average model)滑动平均模型，模型参量法谱分析方法之一

ARMA模型(auto regressive moving average model)自回归滑动平均模型，模型参量法高分辨率谱分析方法之一。它比AR模型法与MA模型法有较精确的谱估计及较优良的谱分辨率性能，但其参数估算比较繁琐。

GARCH模型称为广义ARCH模型，是ARCH模型的拓展， GARCH对误差的方差进行了进一步的建模，特别适用于波动性的分析和预测。

12. 下列哪个不属于常用的文本分类的特征选择算法？D

A. 卡方检验值B. 互信息C. 信息增益D. 主成分分析

特征提取算法分为特征选择和特征抽取两大类，其中特征选择算法有互信息，文档频率，信息增益，开方检验，卡方检验等。

主成分分析不是文本分类特征选择算法。

13. 解释PMF，PDF，CDF

概率质量函数 (probability mass function，PMF)是离散随机变量在各特定取值上的概率。

概率密度函数（p robability density function，PDF ）是对连续随机变量定义的，本身不是概率，只有对连续随机变量的取值进行积分后才是概率。

累积分布函数（cumulative distribution function，CDF）能完整描述一个实数随机变量X的概率分布，是概率密度函数的积分。对於所有实数x ，与pdf相对。

14. 影响聚类算法效果的主要原因有：（　）？ ABC

A. 特征选取B. 模式相似性测度C. 分类准则D. 已知类别的样本质量

15. 关于支持向量机SVM,下列说法错误的是（）

A. L2正则项，作用是最大化分类间隔，使得分类器拥有更强的泛化能力

B.Hinge 损失函数，作用是最小化经验分类错误

C. 分类间隔为1/||w||，||w||代表向量的模

D. 当参数C越小时，分类间隔越大，分类错误越多，趋于欠学习

16. 准确率是检索出相关文档数与检索出的文档总数的比率，衡量的是检索系统的查准率。为了解决准确率和召回率冲突问题，引入了F1分数、G分数，取二者加权平均。

17. 在HMM中,如果已知观察序列和产生观察序列的状态序列,那么可用以下哪种方法直接进行参数估计()B
A. EM算法 B. 维特比算法C. 前向后向算法D. 极大似然估计

EM算法：最大期望算法（Expectation Maximization Algorithm，又译期望最大化算法），是一种迭代算法，用于含有隐变量（hidden variable）的概率参数模型的最大似然估计或极大后验概率估计。

维特比算法：是一种动态规划算法用于寻找最有可能产生观测事件序列的-维特比路径-隐含状态序列,特别是在马尔可夫信息源上下文和隐马尔可夫模型中。

前向-后向算法：首先对于隐马尔科夫模型的参数进行一个初始的估计（这很可能是完全错误的），然后通过对于给定的数据评估这些参数的的价值并减少它们所引起的错误来重新修订这些HMM参数。从这个意义上讲，它是以一种梯度下降的形式寻找一种错误测度的最小值。

极大似然估计：一个随机试验如有若干个可能的结果A，B，C，…。若在仅仅作一次试验中，结果A出现，则一般认为试验条件对A出现有利，也即A出现的概率很大。

18. 位势函数法的积累势函数K(x)的作用相当于Bayes判决中的() AD

A. 后验概率B. 先验概率C. 类概率密度D. 类概率密度与先验概率的乘积

20. 哪些方法可以用来对高维数据进行降维？

八种方法做分类：主成分分析（Principal Component Analysis,PCA)、线性判别分析（Linear Discriminant Analysis,LDA）、等距映射（Isomap）、局部线性嵌入（Locally Linear Embedding,LLE）、Laplacian 特征映射（Laplacian Eigenmaps）、局部保留投影（Local Preserving Projection,LPP）、局部切空间排列（Local Tangent Space Alignment,LTSA）、最大方差展开（ Maximum Variance Unfolding,MVU）、小波分析法、LASSO、深度学习SparseAutoEncoder、矩阵奇异值分解SVD

（1）线性/非线性.

线性降维是指通过降维所得到的低维数据能保持高维数据点之间的线性关系。线性降维方法主要包括PCA、LDA、LPP。非线性降维一类是基于核的，如KPCA。

非线性流形学习方法有：Isomap、LLE、Laplacian Eigenmaps、LTSA、MVU

整体来说，线性方法计算块，复杂度低，但对复杂的数据降维效果较差。

（2）监督/非监督

监督式和非监督式学习的主要区别在于数据样本是否存在类别信息。

非监督降维方法的目标是在降维时使得信息的损失最小，如PCA、LPP、Isomap、LLE、Laplacian Eigenmaps、LTSA、MVU；

监督式降维方法的目标是最大化类别间的辨别信，如LDA。事实上，对于非监督式降维算法，都有相应的监督式或半监督式方法的研究。

（3）全局/局部
局部方法仅考虑样品集合的局部信息，即数据点与临近点之间的关系。局部方法以LLE为代表，还包括Laplacian Eigenmaps、LPP、LTSA。

全局方法不仅考虑样本几何的局部信息，和考虑样本集合的全局信息，及样本点与非临近点之间的关系。全局算法有PCA、LDA、Isomap、MVU。

由于局部方法并不考虑数据流形上相距较远的样本之间的关系，因此，局部方法无法达到“使在数据流形上相距较远的样本的特征也相距较远”的目的。

21. 最小二乘法（又称最小平方法）

一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。

利用最小二乘法可以简便地求得未知的数据，并使得这些求得的数据与实际数据之间误差的平方和为最小。

基本公式是求残差平方和（古代把平方和叫做二乘），求偏导为零的解。

1 0