面试准备汇总

来源:互联网 发布:淘宝现在禁止好评返现 编辑:程序博客网 时间:2024/06/12 01:37

逻辑回归
1.推导LR?LR的损失函数?
2.sigmoid函数是什么?为什么要用sigmoid函数?
3.最速梯度下降法?牛顿法?拟牛顿法(DFP,BFGS,L-BFGS)?
4.LR的regularization,为什么L1规则化倾向于产生稀疏模型?
5.当正样本远小于负样本的情况下,如何调整LR?
6.sigmoid函数求导?sigmoid函数可以优化梯度消失的问题么?为什么会梯度消失?
7.LR标签-1和1情况下的目标,和0 1的区别?
8.激活函数,饱和性质,饱和区间在哪段?有什么影响?tanh?
9.逻辑回归用于多分类?


SVM
1.推导SVM?SVM的损失函数?
2.SVM线性可分,对于N100和 N1000的样本来说,哪个的支持向量多?
3.svm软间隔是怎么回事?
4.SVM核技巧
5.对偶问题,拉格朗日算子


随机森林
1.如果随机森林数的树的个数无穷大,你觉得会过拟合么?RF如何防止过拟合?
2.手推决策树算法,id3与c4.5区别,信息熵、信息增益、信息增益比、gini系数,分类树与回归树,bagging和boosting区别,随机森林、adaboost、gbdt和xgboost等?
3.RF怎么剪枝?
4.RF参数怎么调?

3.随机森林处理缺失值的方法

RandomForest包里有两种补全缺失值的方法:
方法一(na.roughfix)简单粗暴,对于训练集,同一个class下的数据,如果是分类变量缺失,用众数补上,如果是连续型变量缺失,用中位数补。
方法二(rfImpute)这个方法计算量大,至于比方法一好坏?不好判断。先用na.roughfix补上缺失值,然后构建森林并计算proximity
matrix,再回头看缺失值,如果是分类变量,则用没有缺失的观测实例的proximity中的权重进行投票。如果是连续型变量,则用proximity矩阵进行加权平均的方法补缺失值。然后迭代4-6次,这个补缺失值的思想和KNN有些

类似。

补充【proximity matrix】:Proximity 用来衡量两个样本之间的相似性。原理就是如果两个样本落在树的同一个叶子节点的次数越多,则这两个样本的相似度越高。当一棵树生成后,让数据集通过这棵树,落在同一个叶子节点的”样本对(xi,敏感词roximity 值 P(i,j)加 1。所有的树生成之后,利用树的数量来归一化proximity matrix。

K-means
1.K-means基本原理?
2.如何确定K值?

基础问题
1.如何处理缺失值和异常值?
2.离散变量如何归一化?

答:变量如果是离散的,需要使用one-hot encoding。例如性别的属性是二维的,[“male”,”female”],“male”可以用[1, 0]表示,female可以用[0, 1]表示。
one-hot编码会使得数据变得稀疏。

3.准确率、召回率、ROC、AUC、ROC的横纵轴
4.随机梯度下降、BP????
5.SVM和LR的区别
6.生成式和判别式的区别,代表算法,适用场景,哪种更简单
7.为什么会出现过拟合?防止过拟合的方法?

答:正则化,增加训练样本,early stop,dropout,relu,weight decay等

8.L0,L1,L2的作用,区别与联系?
9.CNN为什么用ReLU,为什么不用sigmoid? RNNs为什么用tanh不用ReLU?ReLU的问题以及解决方案。
10.常用的深度学习的trick?Batch Normalization,初始化的方法,Dropout,Weight Decay,Shuffle,Learning rate的调整,Attention等。
11.数据类别不均衡的处理方法?
12.分类算法怎么评价指标?
13.机器学习和深度学习的区别是什么?

其他
1.搜索推荐中的二次排序


手撕代码部分
1.全排列
2.树的路径
3.快排、归并排序
4.动态规划:最长公共子序列
5.海量数据找M个最大的
6.LRU cache实现(leetcode)

Hadoop&Spark
1.hadoop的灾难处理机制?
2.Hadoop的基本原理?