hadoop面试-1

来源:互联网 发布:干支纪日法简便算法 编辑:程序博客网 时间:2024/06/05 21:59

1、hadoop运行的原理?

     hadoop就是map 和 reduce的过程。服务器上一个目录节点+多个数据节点。将程序传送到各个节点,在数据节点上进行计算

2、mapreduce的原理?

     将数据存储到不同节点,用map方式对应管理,在各个节点进行计算,采用reduce进行合并结果集

3、HDFS存储的机制?

     就是通过java程序和目录节点配合,将数据存放到不同数据节点上

4、举一个简单的例子说明mapreduce是怎么来运行的 ?

       分布式注重的是计算,不是每个场景都适合

5、面试的人给你出一些问题,让你用mapreduce来实现?

      比如:现在有10个文件夹,每个文件夹都有1000000个url.现在让你找出top1000000url。

   

6、hadoop中Combiner的作用?

     combiner最基本是实现本地key的聚合,对map输出的key进行排序,value进行迭代。

     map: (K1, V1) → list(K2, V2) 
     combine: (K2, list(V2)) → list(K2, V2)
     reduce: (K2, list(V2)) → list(K3, V3)

    combiner视业务情况来用,减少MAP->REDUCE的数据传输,提高shuffle速度。就是在map中再做一次reduce操作。

 

入门:
知道MapReduce大致流程,map, shuffle, reduce
知道combiner, partition作用,设置compression
搭建hadoop集群,master/slave 都运行那些服务
HDFS,replica如何定位
版本0.20.2->0.20.203->0.20.205, 0.21, 0.23, 1.0. 1
新旧API不同

进阶:.
Hadoop 参数调优,cluster level: JVM, map/reduce slots, job level: reducer #,
memory, use combiner? use compression?
pig latin, Hive 简单语法
HBase, zookeeper 搭建

最新:
关注cloudera, hortonworks blog
next generation MR2框架
高可靠性, namenode: avoid single point of failure.
数据流系统:streaming storm(twitter).

演练算法:
wordcount
字典同位词

翻译sql语句 select count(x) from a group by b;


经典的一道题:

现有1亿个整数均匀分布,如果要得到前1K个最大的数,求最优的算法。­
(先不考虑内存的限制,也不考虑读写外存,时间复杂度最少的算法即为最优算法)

 

原创粉丝点击