Hadoop笔试题一

来源：互联网发布：淘宝客服是销售吗编辑：程序博客网时间：2024/05/19 15:21

Hadoop笔试题一

一、选择题(2分每题,共20分)

1.下面哪个程序负责 HDFS 数据存储。 A NameNode B Jobtracker C Datanode D tasktracker

2.HDfS 中的 block 默认保存几份？A 3 份 B 2 份 C 1 份 D 不确定

3.下列哪个程序通常与 NameNode 在一个节点启动？ A SecondaryNameNode B DataNode C TaskTracker D Jobtracker

4.HDFS 默认 Block Size 是多少（）A 16MBB 32MB C 64MB D 128MB

5.下列哪项通常是集群的最主要瓶颈： A CPU B 网络 C 磁盘 IO D 内存

6.Spark 支持的分布式部署方式中哪个是错误的 （）A standalone B spark on mesos  C spark on YARN D Spark on local

7.下面哪个端口不是 spark 自带服务的端口 ( )A.8080 B.4040 C.8090 D.18080

8.hive 的元数据存储在 derby 和 MySQL 中有什么区别 ( )A.没区别 B.多会话 C.支持网络环境 D数据库的区别

9.DataFrame 和 RDD 最大的区别 ( )A.科学统计支持 B.多了 schema C.存储方式不一样 D.外部数据源支持

10.下面哪个操作是窄依赖 ( )A join B filter C group D sort

二、填空题（2分每空共30分）

11.1pb=____kb 12.大数据的4v特征分别是______、_______、_______、_______。13.安装完全分布式Apache Hadoop的核心配置文件有______,______,_______,________。14.Hdfs，yarn，hbase，以及spark资源监控，spark任务监控的默认web端口分为_________，________，________，_______，__________。15.spark的on yarn client模式启动命令为__________________。

三、命令题（2分每题共10分）

16.删除 hdfs 上的/tmp/xxx 目录命令 17.hadoop的HDFS文件格式化命令18.从hadoop0节点的opt目录下拷贝hive2.1.1文件夹，到hadoop1的opt目录下的命令19.忘了hdfs-site.xml文件在哪了，如何通过命令找到它20.初始化SparkContext命令

四、简答题（4分每题共20分）

21.Hadoop 集群可以运行的 3 个模式？ 22.如何重启 Namenode？ 23.当 JobTracker 宕掉时，Namenode 会发生什么？ 24.HQuorumPeer进程和QuorumPeerMain进程区别是什么？25.Spark RDD，DataFrame，DataSet三者之间的区别是什么？（简要描述）

五、代码题（5分每题共10分）

26.选取一种语言实现冒泡排序27.用mapreduce实现词汇统计，简易描述map和reduce方法

六、逻辑智力题（5分每题共10分）

28.猎人、狼、男人和两个孩子、女人和两个孩子要过河，必须满足的条件：1.  只有一条每次过两个人的船2.  狼不能离开猎人同任何人独处3.  男人的孩子不能与女人独处4.  女人的孩子也不能与男人独处5.  只有猎人、男人和女人会划船问至少需要几次过？（说明过程）

29.赛马，有25匹马，每次只能5匹马进行比赛，比赛只能得到5匹马之间的快慢程度，而不是速度，请问，最少要比多少次，才能获得最快的前3匹马？

答案请参考

阅读全文

1 0