Hadoop笔试题一

来源:互联网 发布:淘宝客服是销售吗 编辑:程序博客网 时间:2024/05/19 15:21

Hadoop笔试题一

一、选择题(2分每题,共20分)

1.下面哪个程序负责 HDFS 数据存储。 A NameNode B Jobtracker C Datanode D tasktracker 
2.HDfS 中的 block 默认保存几份?A 3 份 B 2C 1D 不确定 
3.下列哪个程序通常与 NameNode 在一个节点启动? A SecondaryNameNode B DataNode C TaskTracker D Jobtracker
4.HDFS 默认 Block Size 是多少()A 16MBB 32MB C 64MB D 128MB 
5.下列哪项通常是集群的最主要瓶颈: A CPU B 网络 C 磁盘 IO D 内存 
6.Spark 支持的分布式部署方式中哪个是错误的 ()A standalone B spark on mesos  C spark on YARN D Spark on local
7.下面哪个端口不是 spark 自带服务的端口 ( )A.8080 B.4040 C.8090 D.18080
8.hive 的元数据存储在 derby 和 MySQL 中有什么区别 ( )A.没区别 B.多会话 C.支持网络环境 D数据库的区别
9.DataFrame 和 RDD 最大的区别 ( )A.科学统计支持 B.多了 schema C.存储方式不一样 D.外部数据源支持
10.下面哪个操作是窄依赖 ( )A join B filter C group D sort

二、填空题(2分每空共30分)

11.1pb=____kb 12.大数据的4v特征分别是______、_______、_______、_______。13.安装完全分布式Apache Hadoop的核心配置文件有______,______,_______,________。14.Hdfs,yarn,hbase,以及spark资源监控,spark任务监控的默认web端口分为_________,________,________,_________________。15.spark的on yarn client模式启动命令为__________________

三、命令题(2分每题共10分)

16.删除 hdfs 上的/tmp/xxx 目录命令 17.hadoop的HDFS文件格式化命令18.从hadoop0节点的opt目录下拷贝hive2.1.1文件夹,到hadoop1的opt目录下的命令19.忘了hdfs-site.xml文件在哪了,如何通过命令找到它20.初始化SparkContext命令

四、简答题(4分每题共20分)

21.Hadoop 集群可以运行的 3 个模式? 22.如何重启 Namenode? 23.当 JobTracker 宕掉时,Namenode 会发生什么? 24.HQuorumPeer进程和QuorumPeerMain进程区别是什么?25.Spark RDD,DataFrame,DataSet三者之间的区别是什么?(简要描述)

五、代码题(5分每题共10分)

26.选取一种语言实现冒泡排序27.用mapreduce实现词汇统计,简易描述map和reduce方法

六、逻辑智力题(5分每题共10分)

28.猎人、狼、男人和两个孩子、女人和两个孩子要过河,必须满足的条件:1.  只有一条每次过两个人的船2.  狼不能离开猎人同任何人独处3.  男人的孩子不能与女人独处4.  女人的孩子也不能与男人独处5.  只有猎人、男人和女人会划船问至少需要几次过?(说明过程)
29.赛马,有25匹马,每次只能5匹马进行比赛,比赛只能得到5匹马之间的快慢程度,而不是速度,请问,最少要比多少次,才能获得最快的前3匹马?

答案请参考