面试准备汇总

来源：互联网发布：淘宝现在禁止好评返现编辑：程序博客网时间：2024/06/12 01:37

逻辑回归
1.推导LR？LR的损失函数？
2.sigmoid函数是什么？为什么要用sigmoid函数？
3.最速梯度下降法？牛顿法？拟牛顿法（DFP，BFGS，L-BFGS）？
4.LR的regularization，为什么L1规则化倾向于产生稀疏模型？
5.当正样本远小于负样本的情况下，如何调整LR？
6.sigmoid函数求导？sigmoid函数可以优化梯度消失的问题么？为什么会梯度消失？
7.LR标签-1和1情况下的目标，和0 1的区别？
8.激活函数，饱和性质，饱和区间在哪段？有什么影响？tanh？
9.逻辑回归用于多分类？

SVM
1.推导SVM？SVM的损失函数？
2.SVM线性可分，对于N100和 N1000的样本来说，哪个的支持向量多？
3.svm软间隔是怎么回事？
4.SVM核技巧
5.对偶问题，拉格朗日算子

随机森林
1.如果随机森林数的树的个数无穷大，你觉得会过拟合么？RF如何防止过拟合？
2.手推决策树算法，id3与c4.5区别，信息熵、信息增益、信息增益比、gini系数，分类树与回归树，bagging和boosting区别，随机森林、adaboost、gbdt和xgboost等？
3.RF怎么剪枝？
4.RF参数怎么调？

3.随机森林处理缺失值的方法

RandomForest包里有两种补全缺失值的方法：
方法一（na.roughfix）简单粗暴，对于训练集,同一个class下的数据，如果是分类变量缺失，用众数补上，如果是连续型变量缺失，用中位数补。
方法二（rfImpute）这个方法计算量大，至于比方法一好坏？不好判断。先用na.roughfix补上缺失值，然后构建森林并计算proximity
matrix，再回头看缺失值，如果是分类变量，则用没有缺失的观测实例的proximity中的权重进行投票。如果是连续型变量，则用proximity矩阵进行加权平均的方法补缺失值。然后迭代4-6次，这个补缺失值的思想和KNN有些

类似。

补充【proximity matrix】：Proximity 用来衡量两个样本之间的相似性。原理就是如果两个样本落在树的同一个叶子节点的次数越多，则这两个样本的相似度越高。当一棵树生成后，让数据集通过这棵树，落在同一个叶子节点的”样本对(xi,敏感词roximity 值 P(i,j)加 1。所有的树生成之后，利用树的数量来归一化proximity matrix。

K-means
1.K-means基本原理？
2.如何确定K值？

基础问题
1.如何处理缺失值和异常值？
2.离散变量如何归一化？

答：变量如果是离散的，需要使用one-hot encoding。例如性别的属性是二维的，[“male”，”female”]，“male”可以用[1, 0]表示，female可以用[0, 1]表示。
one-hot编码会使得数据变得稀疏。

3.准确率、召回率、ROC、AUC、ROC的横纵轴
4.随机梯度下降、BP？？？？
5.SVM和LR的区别
6.生成式和判别式的区别，代表算法，适用场景，哪种更简单
7.为什么会出现过拟合？防止过拟合的方法？

答：正则化，增加训练样本，early stop，dropout，relu，weight decay等

8.L0，L1，L2的作用，区别与联系？
9.CNN为什么用ReLU，为什么不用sigmoid？ RNNs为什么用tanh不用ReLU？ReLU的问题以及解决方案。
10.常用的深度学习的trick？Batch Normalization，初始化的方法，Dropout，Weight Decay，Shuffle，Learning rate的调整，Attention等。
11.数据类别不均衡的处理方法？
12.分类算法怎么评价指标？
13.机器学习和深度学习的区别是什么？

其他
1.搜索推荐中的二次排序

手撕代码部分
1.全排列
2.树的路径
3.快排、归并排序
4.动态规划：最长公共子序列
5.海量数据找M个最大的
6.LRU cache实现(leetcode)

Hadoop&Spark
1.hadoop的灾难处理机制？
2.Hadoop的基本原理？

阅读全文

0 0