2017年5月百度机器学习实习面经

来源：互联网发布：好看的av女友知乎编辑：程序博客网时间：2024/05/29 13:27

  古人云：不积跬步无以至千里，不积小流无以成江海。谨以此文为开端，记录我的学习过程。

面试持续1个小时，大致过程如下：
首先自我介绍，然后聊聊自己的项目，感觉百度统招的面试官更加关注细节，他们会询问项目的细节，面试官会问很多特征选择、数据清洗的细节，也会问为什么要选择你使用的模型，模型的参数是如何设定的，如果用其他的模型的话效果有什么不同之类的问题。举个小例子，如果你项目中使用了GBDT，那么他也许会问，你为什么不用Xgboost，随机森林模型。会问你这些模型有哪些区别，各自适用于什么样的数据，你所使用的决策树深度是多少，使用什么作为评价函数，使用了什么库函数实现的问题（本人用的Sklearn），以及你使用过这个库中哪些函数等问题。
项目问完后，面试官询问了我一些C++、python相关的语法，随后出了一些SQL语言的问题。因为答的太烂，面试官为了缓解气氛，又出了一些很基本的数据结构问题，最后让用python实现快速排序，面试至此结束（被拒）。
具体问题如下：

1.GBDT有哪些参数,如何确定树的深度，学习率怎样确定。2.为什么不用XgBoost，GBDT 与XgBoost 的区别有哪些？3.Xgboost 为什么要用到二阶导信息？4.如何防止GBDT过拟合，常用的回归模型有哪些,LR如何防止过拟合?5.对于回归模型，描述LR和GBDT优劣势对比分析。5.常用的属性选择方法有哪些？6.如何使用决策树做属性选择，详细描述属性选择时树的构建过程。7.常用的聚类函数有哪些，K-means的损失函数是什么？8.KNN有什么使用限制，使用KNN要注意什么？9.描述你项目中的评价函数（F-measure），写出它的公式。10.C++中指针和引用有什么区别，const和宏定义有什么区别？11.python中__main__: 有什么实际意义。12.sql中左连接和右连接有什么区别？13.使用过哪些处理大数据的分布式工具？什么是MapReduce？14.常用的排序算法有哪些？哪些是稳定的，哪些是不稳定的。15.使用python手写出快速排序的代码。

至此，面试结束，百度正规的统招给我留下的映像更偏向于细节，面试官会考察你简历上写到的所有信息，只要你敢写，他就会问，这次面试下来，我删去了很多简历上的信息，之前在简历上甚至还写了html,php等经历，但这些好久都没用过了，因此忘的也差不多了，被百度的面试官问的恨不得找个洞钻进去….
以上的问题答案，我会在工作闲的时候逐步写出来，分享给大家，同时也作为一个总结增强我对这些概念的理解。
————————————————————————
部分答案更新：
GBDT与Xgboost相关问题答案：
http://blog.csdn.net/panda_zjd/article/details/71577463
排序：
http://blog.csdn.net/panda_zjd/article/details/71439920

0 0