hadoop面试题,请大家贡献(15)

来源:互联网 发布:黄子韬小精灵什么软件 编辑:程序博客网 时间:2024/05/01 22:08
我相信论坛里很多人都去面试hadoop啦,我也面试了几家,现在把面试题写出来,供分享。

1  hive hdfs,map/reduce,hbase的关系是什么?  hbase的最小块是多少?
2  hbase的主件有哪些? 流程是什么?
3  你在搭建以及应用hadoop的时候,都遇到了什么问题?
其实感觉他们问题的还是hadoop1.x的基础上,到现在为止没有遇到hadoop2.x的问题

抛砖引玉,大伙接着来。

整理一下各位的回帖:(续)
4  ssh的配置,生态圈版本兼容问题  
5  UDF与UDAF的区别 
6  简述 hadoop工作原理  
7  系统有多少机器/数据量有多大/有哪些节点? 
8  如何确定map/reduce的任务数?  
9  基于槽位slot的理解

10  机架感知
11  map的第一个参数key,是整型的,由什么决定的?
12  一个大文件是怎么划分块的

13  hadoop map/reduce的连接操作



Row Key,列族,时间戳
与nosql数据库们一样,row key是用来检索记录的主键。访问hbase table中的行,只有三种方式:

1 通过单个row key访问

2 通过row key的range

3 全表扫描

hbase表中的每个列,都归属与某个列族。列族是表的chema的一部分(而列不是),必须在使用表之前定义。列名都以列族作为前缀。例如courses:history,courses:math
都属于courses 这个列族。

时间戳

HBase中通过row和columns确定的为一个存贮单元称为cell。每个 cell都保存着同一份数据的多个版本。版本通过时间戳来索引。

0 0
原创粉丝点击