hadoop面试-1
来源:互联网 发布:干支纪日法简便算法 编辑:程序博客网 时间:2024/06/05 21:59
1、hadoop运行的原理?
hadoop就是map 和 reduce的过程。服务器上一个目录节点+多个数据节点。将程序传送到各个节点,在数据节点上进行计算
2、mapreduce的原理?
将数据存储到不同节点,用map方式对应管理,在各个节点进行计算,采用reduce进行合并结果集
3、HDFS存储的机制?
就是通过java程序和目录节点配合,将数据存放到不同数据节点上
4、举一个简单的例子说明mapreduce是怎么来运行的 ?
分布式注重的是计算,不是每个场景都适合
5、面试的人给你出一些问题,让你用mapreduce来实现?
比如:现在有10个文件夹,每个文件夹都有1000000个url.现在让你找出top1000000url。
6、hadoop中Combiner的作用?
combiner最基本是实现本地key的聚合,对map输出的key进行排序,value进行迭代。
map: (K1, V1) → list(K2, V2)
combine: (K2, list(V2)) → list(K2, V2)
reduce: (K2, list(V2)) → list(K3, V3)
combiner视业务情况来用,减少MAP->REDUCE的数据传输,提高shuffle速度。就是在map中再做一次reduce操作。
入门:
知道MapReduce大致流程,map, shuffle, reduce
知道combiner, partition作用,设置compression
搭建hadoop集群,master/slave 都运行那些服务
HDFS,replica如何定位
版本0.20.2->0.20.203->0.20.205, 0.21, 0.23, 1.0. 1
新旧API不同
进阶:.
Hadoop 参数调优,cluster level: JVM, map/reduce slots, job level: reducer #,
memory, use combiner? use compression?
pig latin, Hive 简单语法
HBase, zookeeper 搭建
最新:
关注cloudera, hortonworks blog
next generation MR2框架
高可靠性, namenode: avoid single point of failure.
数据流系统:streaming storm(twitter).
演练算法:
wordcount
字典同位词
翻译sql语句 select count(x) from a group by b;
经典的一道题:
现有1亿个整数均匀分布,如果要得到前1K个最大的数,求最优的算法。
(先不考虑内存的限制,也不考虑读写外存,时间复杂度最少的算法即为最优算法)
- hadoop面试-1
- 面试hadoop
- Hadoop面试
- Hadoop面试
- Hadoop面试
- Hadoop面试
- 超人学院hadoop面试葵花宝典(V1.1)
- hadoop面试小结
- hadoop 面试 相关
- hadoop面试题目
- hadoop面试整理
- Hadoop 经典面试问题.
- hadoop面试题目
- hadoop面试百题
- hadoop面试葵花宝典
- Hadoop面试试题
- Hadoop 面试思考
- hadoop面试总结
- 苹果创始人伍兹给年轻人的建议
- XML——从简单开始
- 数据库表的连接(Left join , Right Join, Inner Join)用法详解 - XIAWAYUYADANG的专栏 - CSDN博客
- C语言自制文件分割器(简单)
- Codeforces Beta Round #40 (Div. 2) A题
- hadoop面试-1
- project euler 解题
- 多态——虚函数
- hdu 1003 求最长连续子串和
- 配置 最新 linux-2.6.6 内核 【修改完善了】
- javascript面向对象的编程
- JVM学习笔记-引用(Reference)机制
- Alibaba_equals与==的区别
- 答就业不顺的毕业生——思路清楚了就坚决执行