Spark 和hadoop的一些面试题2(准备)
来源:互联网 发布:ubuntu 17.04 cuda8.0 编辑:程序博客网 时间:2024/05/16 13:19
1、
map的数量是什么决定的,
reduce的数量是什么决定的
mapreduce的中间发生了什么 http://langyu.iteye.com/blog/992916
请用实例举例
1、map的数量怎么决定:
splitSize = max (minSize, min(goalSize, dfs.block.size))
http://blog.csdn.net/strongerbit/article/details/7440111
第一种情况:
3.1 减小 Mapper数量
3.1.1 输入文件size巨大,但不是小文件
增大mapred.min.split.size的值
3.1.2 输入文件数量巨大,且都是小文件
CombineFileInputFormat 使用这个类3.2 增加 Mapper数量
即减小blockSize或者减小mapred.min.split.size的值。2、reduce的数量 。
默认值是1。
3、map和reduce之间发生了什么?
shuufle的过程
map端
1、 整个流程我分了四步。简单些可以这样说,每个map task都有一个内存缓冲区,存储着map的输出结果,当缓冲区快满的时候需要将缓冲区的数据以一个临时文件的方式存放到磁盘,当整个map task结束后再对磁盘中这个map task产生的所有临时文件做合并,生成最终的正式输出文件,然后等待reduce task来拉数据。
reduce端
2、1. Copy过程
2. Merge阶段
3. Reducer的输入文件
3、说出hadoop需要改进的地方,并且提出建议
1、map reduce两个阶段都产生的临时数据都需要写入磁盘,然后在从磁盘读取数据,增加了磁盘的io性能,导致任务执行缓慢
对于可以装入内存的数据,不需要写入磁盘了,直接从内存进行处理
2、默认mapreduce是对key进行排序的, 而有些任务是不需要排序这个要求的,影响任务的速度
对于不需要排序的任务,可以进行不排序。
3、不适合事务/单一请求处理
4、. 不能随即读取
5、以蛮力代替索引
6、 1、数据必须先存储,才能运算。
1 0
- Spark 和hadoop的一些面试题2(准备)
- Spark 和hadoop的一些面试题(准备)
- Spark 和hadoop的一些面试题3(准备)
- 最近经历的一些大数据(Spark/Hadoop)面试题
- 在面试准备中总结的一些面试题
- 准备的华为面试题
- 找工作准备的面试题
- Html和JS的一些面试题
- 一些Hadoop面试题及答案
- Hadoop 面试题之Hbase(2)
- 基础准备(Hadoop/Spark/Mahout安装准备)
- 一些html5和css3的一些常见面试题
- 最近学习hadoop和spark的一些心得
- 对于Hadoop和Spark的一些浅显认识
- 自己遇到的一些面试题总结(2)
- 国外的一些struts面试题2
- 7.24晚毫无准备的面试题
- 我准备的C++面试题
- 自定义View
- oc文件路径
- ehcache缓存实战
- mysql锁表,MVCC以及基础知识、锁、隔离级别、协议
- golang json数组拼接
- Spark 和hadoop的一些面试题2(准备)
- 【WINDOWS环境 React Native初识】com.android.ddmlib.InstallException: Failed to establish session白屏问题解析
- JavaScript ---- About GIT
- Python入门:邮件发送
- c++ 引用计数
- 【leetcode】102. Binary Tree Level Order Traversal
- (selenium 九 )unittest 参数化
- 论开源<5>---个人利益受损
- iOS开发——时间格式类