文章标题

来源：互联网发布：江国香织知乎编辑：程序博客网时间：2024/06/06 08:42

准备的资料目录:

xgboost模型
CNN卷积神经网络
RNN递归神经网络
传统机器学习笔记
L1、L2正则
caffe框架
操作系统
计算机网络
排序/算法题/B树、B+树、红黑树/数据结构
数据库
1.什么是有监督训练，什么是无监督训练，举一个无监督例子（一开始没有进入状态，我居然忘了什么是无监督算法，我就扯了下卷积神经网络一开始提取的图像特征是无监督的，举例：无监督k-means）
2.怎么解决过拟合问题：决策树剪枝、svm松弛变量、L1，L2正则化，dropout （面试官补充了一个 Early Stopping，其实这个方法在项目中使用还是比较多的，但是我不清楚叫early stopping，其实就是评价训练正确率、测试正确率曲线，提早结束训练）
3.L1，L2是什么，有什么区别，在什么情况下使用L1，什么情况下使用L2
4.什么是交叉验证
5.还有什么方法可以减少过拟合。（从数据预处理角度，比如降维：PCA，还有就是平衡不同类数据的权重，图像中减去数据集的均值）
6，如何解决数据缺失的情况（丢弃、补0、补均值、补固定值、补预测值，通过我之前做的实际项目，分别阐述这样做可能会造成的后果）
7。LR、SVM、决策树的区别（一开始问我区别，我讲了LR和SVM对中心点分类的区别，面试官提示了一下，不用讲这么深，从模型复杂度，激活函数等方面来阐述）
-8.SVM中需要解决的重要数学问题是什么（拉格朗日对偶问题，具体的数学内容我说不太了解，面试官说没关系），其实是应该是把有约束条件的解转化为无约束条件的解，梯度下降法使用了什么重要的数学依据（函数的局部最小最大值）
9.为什么要做数据归一化，在梯度下降时有什么好处（加速梯度下降，减少梯度下降时的摆动，根据下降曲线进行讲解，很容易得出）
10。什么是前馈传播，什么是反向传播，推导一下反向传播算法，(手写一个三层神经网络，w11，w12,w13,w21,w22,w31。我说的时候有点把自己绕晕了，不过bp其实理解了就这么回事，实际使用时就是一行代码)
11.有哪些特征选择的方法（不太理解意思，跳过了。后来想了想，的确不太了解，其实是特征工程，怎么评价选择的特征优劣，比如卡方检验、相关系数检验、pca等），这个问题我回答不出来，原因是我主要做图像相关的项目，特征工程是没有用过的。
12.简述下kmeans算法，如何选择k的个数（说了和业务相关），k-means++是怎么确定k的个数，面试官提示k和业务无关（++没接触过，不是很了解，他说没关系，
13.GBDT和随机森林的比较（BGDT是指梯度提升树）（刚好复习的时候看到过这个题，就大概说了下，一个boosting，一个是bagging，处理方式是偏差和方差等）
14.模型评价指标 ROC、AUC（我回答的不是很好），然后又问我精准率和召回率是什么，用0，1样本来说明（我手写推导了一下TP、TN等）
15.有没有用过tensorflow，（我说用过，框架不太好改，虽然有keras的封装，自己后面主要还是手写算法，或者用pytorch）
-16，DNN也就是深度学习，问我深度学习正确率很高，是否是真的很有能力。（我从计算资源和时间成本方面做了下解答，意思是不能盲目相信深度学习，大样本下的深度学习，其实就是包含了各种可能性的一种超强分类器。面试官是觉得深度学习非常不错的。不过我和我导师的研究结果，还有根据生物神经科学相关的一些研究，还是觉得生物的学习并不是深度的，人脑的功率只有20瓦，而且脑神经的信息传播比较简单，传播速率也并不快，深度学习还没有触摸到人脑的本质）

二面主要聊项目，这个时候面试策略与逻辑就很重要了，如果只是简单介绍，问一句答一句，面试官会发现时间还很多，就会问一些基础问题，很容易问到你的知识盲区，然后挂了。如果从项目出发的话，你表达能力+，逻辑能力+，就很容易得到面试官的认可

选择一个自己印象最深刻的项目，基本上从项目展开
随时会打断，问你这么做的原因，为什么不那样做
项目大概讲了40分钟，基本上方方面面都说到了，后面问了几个排序算法以及时间复杂度，时间就差不多了
之前为什么离职，想要考研，为什么想读计算机，职业规划是怎么样的

三面，是交叉面

卷积神经网络的结构，怎么调参的
场景题：怎么去判定淘宝上好评与差评是不是刷的。确认了一些数据来源以后，讲了文本分析，通过监督学习的方式筛选好评与差评，面试官继续问还有没有别的方法，我想了下：通过IP地址、时间等特征的聚类，分离一些特别明显集中的好评，那么就是刷的。面试官问：还有没有继续改进的可能，我：通过交叉数据，停留在页面上的时间，搜索的关键字，找过几个同类产品等特征。
有没有参加过什么比赛（非常遗憾，没有。前文我也大概提过，15年的时候，深度学习还不是很热，实验室就我一个人做这个方向，项目压力又大。所以后面的同学，多去参加一些比赛，哪怕最后照搬前几名的思路，也会有很多收获）
学习深度学习的途径是什么？逼乎（哈哈），一些公众号，还有每年整理的会议论文。

Addtion1

xgboost top K 的特征是怎么选出了的？
决策树，算信息增益，信息增益率,信息增益率的公式是啥？
机器学习评价指标有哪些？
map是什么？
vsm空间是啥？
svm的原理？svm+L2正则?

看下面的例子；其实svm 可以看做是L2正则化。其中损失函数是hinge loss 。LR的损失函数是logloss

参考：
[svm正则和损失](https://www.zhihu.com/question/30230784)
核函数有哪些？

朴素贝叶斯, 用朴素贝叶斯做情感分类。说一下思路，从构建词典说起。

tfidf 是什么，idf 的公式是什么？

lda 主题模型中采样是什么？为什么要采样？

lr是什么？原理是什么？

sigmoid函数的导函数的取值范围是多少？其实就是一元二次方程的y值范围，0-1/4

阅读全文

0 0