阿里巴巴2018届校招秋招简历评估面经

来源:互联网 发布:m328晶体管测试仪编程 编辑:程序博客网 时间:2024/06/05 07:37

1、GBDT和随机森林的主要区别

2、单颗树的构建过程(说了ID3,C4.5)

3、竞赛相关流程
基于树模型有必要做标准化吗(树模型没必要,SVM/神经网络有必要)
这么多维度是怎么构建出来的
把两个特征做除法得到了新特征,在GBDT有没有这个必要
(有,虽然gbdt可以做到两列特征的关联,但是比例特征和关联特征是有区别的,因为你没办法确定他是不是准确关联了你目标的两列特征。
比如我先基于 a列做分叉,再基于b列做分叉,有个很弱的比例特征的表征。在a的基础上比如 a < 500,然后再在b的基础上比如 b < 100,那么这两个同时满足的话 是可以学到一定的比例关系。但是如果对应的 a = 5000 b = 1000,就没办法学习到了。
同时,可能会在 a点的右分支的左分支表征一样的信息,相当于把模型复杂化了。但是如果我们输入比例特征的话,第一个分裂节点可能就不是a,而是 b/a了,输入比例特征 是有利于模型进行学习的)

4、肿瘤项目相关(文本形式,图像形式)
图像用了什么算法(CNN/AlexNet)
文本有没有用到CNN,样本大概有多少例
在CNN(深度学习)上融合文本的feature有没有可能性
算法模型在后面想怎么完善去提高准确率(模型融合)

5、CNN的网络结构(输入层、卷积层、激励层、池化层、全连接层)
ReLU的形式,数学公式是什么,和Sigmoid的图像有什么区别
全连接层的基本结构是什么,一个神经网络可以有几个全连接层

6、有没有遇到过C++里的countdown问题。(没有遇到过)
那讲一讲Linux搜索字符串格式(grep -rn ./) 和find的区别

7、了解目前实习情况,在哪里用到Spark服务,一般用的是什么数据库

8、Mysql里的join有几种。有没有用过Hadoop

9、海量数量取出最大的几个数(top K问题)
参考 http://blog.csdn.net/zyq522376829/article/details/47686867

10、最近看过的三篇论文(迁移学习、GAN、LSTM)
介绍一下LSTM的基本数据单元

11、满二叉树和完全二叉树的区别
(满二叉树是指这样的一种二叉树:除最后一层外,每一层上的所有结点都有两个子结点。在满二叉树中,每一层上的结点数都达到最大值,即在满二叉树的第k层上有2k-1个结点,且深度为m的满二叉树有2m-1个结点。
完全二叉树是指这样的二叉树:除最后一层外,每一层上的结点数均达到最大值;在最后一层上只缺少右边的若干结点。)

12、有没有git或者csdn地址

13、再问了一遍为什么要在菊厂做云计算=。=当时面试了都问了你哪些问题。

原创粉丝点击