2017年5月百度机器学习实习面经

来源:互联网 发布:好看的av女友 知乎 编辑:程序博客网 时间:2024/05/29 13:27
  古人云:不积跬步无以至千里,不积小流无以成江海。谨以此文为开端,记录我的学习过程。

面试持续1个小时,大致过程如下:
首先自我介绍,然后聊聊自己的项目,感觉百度统招的面试官更加关注细节,他们会询问项目的细节,面试官会问很多特征选择、数据清洗的细节,也会问为什么要选择你使用的模型,模型的参数是如何设定的,如果用其他的模型的话效果有什么不同之类的问题。举个小例子,如果你项目中使用了GBDT,那么他也许会问,你为什么不用Xgboost,随机森林模型。会问你这些模型有哪些区别,各自适用于什么样的数据,你所使用的决策树深度是多少,使用什么作为评价函数,使用了什么库函数实现的问题(本人用的Sklearn),以及你使用过这个库中哪些函数等问题。
项目问完后,面试官询问了我一些C++、python相关的语法,随后出了一些SQL语言的问题。因为答的太烂,面试官为了缓解气氛,又出了一些很基本的数据结构问题,最后让用python实现快速排序,面试至此结束(被拒)。
具体问题如下:

1.GBDT有哪些参数,如何确定树的深度,学习率怎样确定。2.为什么不用XgBoost,GBDT 与XgBoost 的区别有哪些?3.Xgboost 为什么要用到二阶导信息?4.如何防止GBDT过拟合,常用的回归模型有哪些,LR如何防止过拟合?5.对于回归模型,描述LR和GBDT优劣势对比分析。5.常用的属性选择方法有哪些?6.如何使用决策树做属性选择,详细描述属性选择时树的构建过程。7.常用的聚类函数有哪些,K-means的损失函数是什么?8.KNN有什么使用限制,使用KNN要注意什么?9.描述你项目中的评价函数(F-measure),写出它的公式。10.C++中指针和引用有什么区别,const和宏定义有什么区别?11.python中__main__: 有什么实际意义。12.sql中左连接和右连接有什么区别?13.使用过哪些处理大数据的分布式工具?什么是MapReduce?14.常用的排序算法有哪些?哪些是稳定的,哪些是不稳定的。15.使用python手写出快速排序的代码。

至此,面试结束,百度正规的统招给我留下的映像更偏向于细节,面试官会考察你简历上写到的所有信息,只要你敢写,他就会问,这次面试下来,我删去了很多简历上的信息,之前在简历上甚至还写了html,php等经历,但这些好久都没用过了,因此忘的也差不多了,被百度的面试官问的恨不得找个洞钻进去….
以上的问题答案,我会在工作闲的时候逐步写出来,分享给大家,同时也作为一个总结增强我对这些概念的理解。
————————————————————————
部分答案更新:
GBDT与Xgboost相关问题答案:
http://blog.csdn.net/panda_zjd/article/details/71577463
排序:
http://blog.csdn.net/panda_zjd/article/details/71439920

0 0
原创粉丝点击