hadoop面试-1

来源：互联网发布：干支纪日法简便算法编辑：程序博客网时间：2024/06/05 21:59

1、hadoop运行的原理?

hadoop就是map 和 reduce的过程。服务器上一个目录节点+多个数据节点。将程序传送到各个节点，在数据节点上进行计算

2、mapreduce的原理?

将数据存储到不同节点，用map方式对应管理，在各个节点进行计算，采用reduce进行合并结果集

3、HDFS存储的机制?

就是通过java程序和目录节点配合，将数据存放到不同数据节点上

4、举一个简单的例子说明mapreduce是怎么来运行的 ?

分布式注重的是计算，不是每个场景都适合

5、面试的人给你出一些问题,让你用mapreduce来实现？

比如:现在有10个文件夹,每个文件夹都有1000000个url.现在让你找出top1000000url。

6、hadoop中Combiner的作用?

combiner最基本是实现本地key的聚合，对map输出的key进行排序，value进行迭代。

     map: (K1, V1) → list(K2, V2)
     combine: (K2, list(V2)) → list(K2, V2)
    reduce: (K2, list(V2)) → list(K3, V3)

combiner视业务情况来用，减少MAP->REDUCE的数据传输，提高shuffle速度。就是在map中再做一次reduce操作。

入门：
知道MapReduce大致流程，map, shuffle, reduce
知道combiner, partition作用，设置compression
搭建hadoop集群，master/slave 都运行那些服务
HDFS，replica如何定位
版本0.20.2->0.20.203->0.20.205, 0.21, 0.23, 1.0. 1
新旧API不同

进阶：.
Hadoop 参数调优，cluster level: JVM, map/reduce slots, job level: reducer #,
memory, use combiner? use compression?
pig latin, Hive　简单语法
HBase, zookeeper 搭建

最新：
关注cloudera, hortonworks blog
next generation MR2框架
高可靠性,　namenode: avoid single point of failure.
数据流系统：streaming storm(twitter).

演练算法：
wordcount
字典同位词

翻译sql语句 select count(x) from a group by b;

经典的一道题：

现有1亿个整数均匀分布，如果要得到前1K个最大的数，求最优的算法。
（先不考虑内存的限制，也不考虑读写外存，时间复杂度最少的算法即为最优算法）