腾讯笔试题

来源：互联网发布：电话座机迁走了没网络编辑：程序博客网时间：2024/06/06 05:45

刚刚完成了腾讯的2017年腾讯基础研究笔试题，谈一下感受。

考题分为选择题（26/60分钟）和简答题（3/60分钟），选择题很基础，尽管我基本上不会，但如果按照考研的那个水平，那是完全不用担心的，不知道以前的高数都还给谁了，内容很基础的，其中涉及到：

选择题：

1）概率计算问题：期望、方差、协方差、计算概率问题等

2）矩阵：矩阵计算、特征值计算、秩，线代第二章看看基本上没问题了

3）高数：定积分和不定积分计算、求偏导

4）数据结构：时间复杂度，排序

5）统计：分层抽样

6）数据库：基本命令考察

简答题：

1）原假设和备择假设问题

2）神经网络优缺点

3）艺人生活行为的挖掘问题

大公司一般笔试会很注重基础重基础重基础，因为腾讯不让公开笔试题，所有，列个考点。

校招前好好备战，加油，让自己的努力跟的上一线城市的房价。

应聘职位：基础研究
岗位描述：探索和创新前沿互联网技术，将高新技术转化为产品，参与腾讯产品的开发与技术实现
岗位要求：2016年毕业，自然语言处理、多媒体、分布式网络、数据分析、智能计算、安全等互联网相关技术具有较深研究和专业积累，具有较好的创新能力和编程开发能力，具备较强的团队合作力

选择题

第1题求定积分结果∫101dx
答案：1
第2题已知总标准差=25，随着样本增加均值怎么变化。
第3题已知K是第四名，A的年龄不是最大但比D老，D不是第二名，年龄第2小的是第二名，第三名的年龄大于第一名，B比第三名年轻，求A、B、D和K的排名顺序。
答案：D>B>A>K
第4题 y=sin(x)+cos(x)的极大值
答案：2√
第5题 max={Cx | Ax<=b, x>=0}为最优解，z>=0，当C、b被v和v/2乘时一下结果正确的是…
第6题 u检验的应用条件是：两样本来源得总体符合正太分布…
第7题设某商品需求满足：yi=β0+β1∗xi+εi，参数估计量…
第8题齐次线性方程组Ax=0存在无穷解，其行列式m行、n列实数矩阵，则满足：
A.m > n　　B.m < n　　C.rank(A) = m　　D.rank(A) = n
第9题已知x0=(1,1)，求f(x)=4∗x1+6∗x2−2∗x12−2∗x1∗x2−2∗x22极大值。x1坐标为：
A.(1,1)　　B.(-1,1)　　C.(-1/2,1)　　D.(1/2,1)
第10题相同样本量下，重复抽样与不重复抽样平均误差大小关系是：相同、重复抽样大、不重复抽样大选项
第11题 n阶矩阵A行列式|A|=1，则|A−1|=?
第12题一对夫妇两孩子，已知一个是男孩，求两个都是男孩的概率。猜测答案是0.5
第13题 x1,x2,x3...xn来自(μ,σ2)一个样本，x¯为均值，S2为方差。其中答案包括：S2/σ2∼x(n−1)
第14题随机变量x概率分布：x=2 f(x)=0.2、x=4 f(x)=0.3 、x=7 f(x)=0.4 、x=8 f(x)=0.1，x的标准差是。
第15题一盒装有6个乒乓球，4个位新球，第一次随机取2个，使用后放回盒子；第二次随机取2个，求第二次取全新的概率。
第16题商品销售量、方差分析，excel表分析颜色特征对结果的影响。
第17题 k1、k2是矩阵A两个不同特征值，a与b是A分别属于k1、k2的特征向量，则a、b满足，选项包括线性无关、线性相关等。
第18题青蛙掉入21米井里，每天向上爬10米，晚上再掉下7米，问几天爬出。
答案：5天
第19题人工批量盆景虎皮兰，平均高度70cm，标准差5cm，随机搬出100盘，则说法正确的是：选项包括至少75盆以上在70-80cm之间等。
第20题行列式的值是多少：
$∣ ∣ ∣ ∣ a 2 2 a 1 a b a + b 1 b 2 2 b 1 ∣ ∣ ∣ ∣$
第21题数据库系统描述错误的是：
A.DBMS是数据库管理系统简称
B.Hive是开源的数据库系统
C.数据库事务有ACID属性
D.SQL中create属于DML语言
答案：D
分析：终于看到第一道与编程、OS、DB相关的题目了，泪流满面啊！故简单讲解下：DBMS就是数据库管理系统（Database Management System），事务包括ACID性质（原子性Atomicity、一致性Consistency、隔离性Isolation、持久性Durability），Hive是属于Hadoop的数据仓库工具。而create属于DDL（数据库模式定义语言），Insert、delete、update属于DML（数据库操纵语言）、Select属于DQL（数据库查询语言）、grant属于DCL（数据库控制语言）。
第22题甲乙两人比射箭，水平一样。甲射101箭，乙射100箭，求甲射中次数比乙射中次数多的概率。

第23题一个对数组A（n个元数组）排序，代码如下：

for i=i to length(A)-1   j=i   while j>0 and A[j-1]>A[j]       swap A[j] and A[j-1]       j=j-11
2
3
4
5

求代码的时间复杂度：O(n2)

第24题 mysql中选课表learn(stu_id int, course_id int )，其中学生id和课程id，则获取每个学生所选课程个数的语句是：
A.select stu_id, count(course_id) from learn;
B.select stu_id, sum(course_id) from learn;
C.select stu_id, count(course_id) from learn group by student_id;
D.select stu_id, sum(course_id) from learn group by student_id;
分析：count计数和sum求和的区别，group by分组
第25题两家工厂A和B，技术相同，合格率一样平均80%，A大规模工厂，B小规模工厂，没有出现故障某家企业合格率仅为70%，问哪家工厂的可能性更大？

问答题

第一题

进行特征选择时，即分析哪些协变量对目标变量有较大影响时，有哪些常用的方法？你本人更看好其中哪些？为什么？

第二题

网络上流传一个故事，关于数据的神奇性：某商场向一位未婚少女邮寄一些用于保胎的商品目标和折扣券，其父亲发火，后证实该少女确实怀孕，解释一下如何做到的？

个人从一下几个方面答的，可能存在错误或不足之处：
1.搜索引擎与推荐系统及算法
2.数据挖掘相关的关联规则挖掘算法，经典尿布与啤酒
3.知识图谱问答系统实现理解人类语言（毕设相关）

第三题

QQ空间相册替换墙换一换功能。把聚类好的人脸进行圈人标注，系统根据用户历史标注记录，分析每张照片最可能身份，用户进行确认和否认。每次只从聚类人脸中抽取5张进行展示。假设利用信息是每个人脸的相似度矩阵G，而且第k+1次抽样并不知道第k次抽出的样本，可用人脸数量N始终大于50张。
(1) 如何设计抽样算法，抽样碰撞率尽可能低；
(2) 如果抽样完成后，抽出5张人脸从中删除，如何设计抽样算法，使得相邻两次间抽样碰撞率尽可能低？

总结

面试了阿里和腾讯的NLP和数据挖掘相关的算法方向，个人感觉腾讯的题目偏重数学统计概率，其中选择题就3道与程序和数据库相关，而且比较简单，更多的是数学知识；而三个大题感觉还是不错的，很贴近生活和腾讯的实际产品，让我也学到很多知识。但是阿里的题目都至少偏向算法点，自己需要学习的东西还是非常多，也认识到了自己很多不足之处！接下来继续努力吧。

作者：offer快来吧给跪了还不行吗
链接：https://www.nowcoder.com/discuss/25919?type=0&order=0&pos=8&page=1
来源：牛客网

LZ平时从牛客网上看经验贴，收获很多，今天刚收到腾讯基础研究岗位的offer，把自己的经历写一下，希望能帮助到一些同学。

LZ是西电的计算机专业硕士，本科数学专业，前一段时间面试腾讯基础研究岗位，并收获了offer。在去年的天池比赛里面获得top10，实验室做的工作和机器学习数据挖掘关系不太大，我们是搞遥感图像处理的。

2017.4.16 腾讯基础研究实习生一面

没有让自我介绍，问了问有没有实习经历，投了哪些公司。

1.把数据挖掘的整个流程写一下，有哪些算法写一下；

2.推荐系统算法有哪些；

3.介绍项目比赛，按照自己写的数据挖掘流程一条一条地问自己的比赛是怎么做的；

4.数据结构有那些，写下来，从中挑问题问；

5.网络七层有哪些，每层有那些协议，写下来；

6.c++类中默认函数有哪些，写下来；

7.广告推荐中用那些算法；

8.知道FM算法吗；

然后聊了聊面试官是哪个事业群的，主要是做什么的，面试官是MIG的，主要做推荐算法。由于我在面试的过程中回答的比较流畅，而且有比赛的top，所以我走之前就告诉我我过了。当天晚上10点多接到第二天二面的短信。

2017.4.17 腾讯基础研究实习生二面

自我介绍，问本科研究生的成绩。

问实验室的项目，然后问有没有用到深度学习，我说没有，都是平时自己看看这方面的论文，然后就开始考察对深度学习的了解。

1.CNN DNN RNN的区别

2.了解LSTM吗

3.为什么要用CNN，AlexNet做了哪些方面的工作

4.深度学习如何避免过拟合

5.海量数据深度学习调参

6.深度学习怎么自学的

7.梯度弥散和梯度爆炸

8.深度学习的发展方向和前景

9.对腾讯的看法

整个过程没有问我基础知识，没有问我比赛，只问了点实验室做的东西，知道我平时看看深度学习，就考察我对这方面的理解，主要考察学习能力和知识面的广度。第二天晚上9点多接到HR面试的短信。

2017.4.19 HR面试

主要是问问项目，对腾讯的看法，工作地点之类的问题，就如实回答了，20分钟就结束了。

21号晚上微信状态由HR面试变成已完成所有面试环节，26号下午接到HR的电话，确认个人信息，工作地点，薪资等。

作者：牛客470556号
链接：https://www.nowcoder.com/discuss/5098
来源：牛客网

4月15号到17号依次参加了腾讯在南京的一面二面hr面，面试岗位是基础研究。

一面：

先自我介绍，然后按简历里的内容依次询问，问题问的非常细致，主要是项目中的技术细节，自己参与部分的实现，面试官会根据自己的理解提出觉得存在技术难点的地方，问解决方案；然后询问比赛的内容，因为参与了阿里天池的比赛，所以面试官问了当时比赛的情况，询问数据处理流程、特征选择、模型选择评估方面的问题；之后让写一下逻辑回归的公式和如何用梯度下降求解，因为逻辑回归基本是必然会问道的算法，所以准备比较充分，我又讲了下拟牛顿法求解，L1 ，L2 正则化，online learning（因为参与过点击率预测的比赛，就讲了下google的FTRL），之后写下贝叶斯公式，朴素贝叶斯算法，以及决策树随机森林，一面基本围绕项目、比赛、基本的机器学习算法进行，面试官会根据情况提些细节问题。

二面：

依然自我介绍，项目、比赛的内容，之后问了下过拟合问题，怎么样解决，举例说下几个算法（当时说了，lr的正则化和决策树的剪枝），还问了特征工程和模型融合，之后问了深度学习、Hadoop、spark的了解程度，问了下alpha go是怎么实现的，还问了今后的职业规划之类的问题，二面依然会围绕项目、比赛、基本的机器学习算法进行，还会看你对当前主流的技术趋势的了解，以及现成的开源解决方案的了解。

一面二面有的同学遇到了编程题，可能我比较幸运，面试官没有让我写代码，只是一面时推公式。

hr面：

自我介绍，项目，比赛情况，然后围绕项目的合作进展，个人贡献提问等等，以及考研时为什么转专业，为什么选择机器学习、数据挖掘方向，hr面比较轻松，只要实事求是说自己的想法就行了。

腾讯面试持续了三天，整体上面试流程比较nice，效率比较高，基本当天晚上回去就出结果通知第二天面试，面试官还是蛮辛苦的，希望能拿到offer。

最后祝大家找工作顺利，加油！

1. 数学问题：3sigma原理，T分布，特征根，特征值，最大似然估计，马尔科夫链。

（1）3sigma原理

在正态分布中σ代表标准差,μ代表均值x=μ即为图像的对称轴，三σ原则即为：

数值分布在（μ—σ,μ+σ)中的概率为0.6526

数值分布在（μ—2σ,μ+2σ)中的概率为0.9544

数值分布在（μ—3σ,μ+3σ)中的概率为0.9974

工程中，当质量特性呈正态分布时（实际上，当样本足够大时，二项分布、泊松分布等均趋近于正态分布），3Sigma水平代表了99.73%的合格率（2700PPM）；

（2）t-分布

在概率论和统计学中，学生t-分布（Student's t-distribution），可简称为t分布。应用在估计呈正态分布的母群体之平均数。它是对两个样本均值差异进行显著性测试的学生t检定的基础。学生t检定改进了Z检定（Z-test），因为Z检定以母体标准差已知为前提。虽然在样本数量大（超过30个）时，可以应用Z检定来求得近似值，但Z检定用在小样本会产生很大的误差，因此必须改用学生t检定以求准确。

t-检验近似于Z检验，通俗地说，是样本量小于45时用于减小误差的改进Z检验。改进原理就是抛弃母体标准差，而直接用样本点构造分布。

（3）特征根、特征值、特征向量、特征空间

设 A 是n阶方阵，如果存在数m和非零n维列向量 x，使得 Ax=λx 成立，则称 m 是A的一个特征值（characteristic value)或本征值（eigenvalue)。

非零n维列向量x称为矩阵A的属于（对应于）特征值m的特征向量或本征向量，简称A的特征向量。

特征根对应特征方程，是( A-λE)X=0的解。特征值对应矩阵及特征向量，是矩阵的属性。

λ是A的一个特征值,则一定是特征方程的根, 因此又称特征根。

特征空间：就是由所有有着相同特征值的特征向量组成的空间，还包括零向量，但要注意零向量本身不是特征向量。

那么特征值、特征向量究竟有什么用？链接（邵庆贤）

应用非常广泛：

图像处理中的PCA方法，选取特征值最高的k个特征向量来表示一个矩阵，从而达到降维分析+特征显示的方法。

还有图像压缩的K-L变换，以及很多人脸识别、数据流模式挖掘分析等方面。

在力学中，惯量的特征向量定义了刚体的主轴。惯量是决定刚体围绕质心转动的关键数据。

在谱系图论中，一个图的特征值定义为图的邻接矩阵A的特征值，或者（更多的是）图的拉普拉斯算子矩阵， Google的PageRank算法就是一个例子。

曾经有这么一句话：「有振动的地方就有特征值和特征向量」

只要你真正理解了线性空间的矩阵的意义，你就明白了，几乎无处不在。

网上还有一种更好理解的说法：

如果你把A*x=λ*x中的A看做一种变换或作用，那么那些在这种作用下，只改变长短不改变方向的那些向量x就是特征向量；而特征值就是λ，是伸缩系数，起能量增幅或者削减作用。

具体的说，求特征向量的关系，就是把矩阵A所代表的空间，进行正交分解，使得A的向量集合可以表示为每个向量a在各个特征向量上面的投影长度。

特征向量和特征值的几何意义

（4）极大似然估计

这一方法是基于这样的思想：我们所估计的模型参数，要使得产生这些给定样本的可能性最大。即：

找到最佳的模型参数，使得模型实现对样本的最大程度拟合，也就使样本集出现的可能性最大，从而用样本估计总体。。

举个例子：一个随机试验如有若干个可能的结果A，B，C，…。若在仅仅作一次试验中，结果A出现，则一般认为试验条件对A出现有利，也即A出现的概率很大。一般地，事件A发生的概率与参数theta相关，A发生的概率记为P(A，theta)，则theta的估计应该使上述概率达到最大，这样的theta顾名思义称为极大似然估计。

求极大似然函数估计值的一般步骤：（1）写出似然函数；（2）对似然函数取对数，并整理；（3）求导数；（4）解似然方程。

应用举例：在机器学习的异常检测中，根据模型（通过学习得来的）计算一个数据点出现的概率，如果这个概率小于某个我们事先设定的值，就把它判为异常。我们基于的是一个小事件的思想：如果一件可能性极小的事情竟然发生了，那么就极有可能是异常。举个例子，我这辈子跟奥巴马成为哥们的可能性几乎为零，如果哪一天我跟奥巴马在烧烤摊喝3块钱一瓶的啤酒，那么绝对叫异常。

极大似然估计

（5）马尔科夫链

基本思路：指数学中具有马尔可夫性质的离散事件随机过程。该过程中，在给定当前知识或信息的情况下，过去状态对于预测将来的状态是无作用的。

马尔科夫性质的方程（条件概率方程）

应用：隐马尔科夫模型，用于中文分词。

阅读全文

'); })();