spark streaming 有趣问题汇总
来源:互联网 发布:百度一下软件 编辑:程序博客网 时间:2024/06/03 05:34
1. 关于spark.streaming.concurrent.job参数的问题
1)当参数环境:6个executor,kafka topic 有3个partition,spark.streaming.concurrent.job=1 时
则:只有3个exevutor有task在跑,这个比较好理解,一个executor处理一个分区数据
2)当参数环境:6个executor,kafka topic 有3个partition,spark.streaming.concurrent.job=2 时
则:有3个exevutor有大量(五位数)task在执行,另3个executor会有少量(两位数)task执行
为什么job并发度为2的时候,会有其他executor执行少量task?
分析:因为topic只有3个partition,然后每个executor只有一个core,当并行度为1时,任务调度是process local的,所以只有3个executor会分配task,当并行度为2时,当job出现堆积,则会出现一个executor上的task未执行完,就尝试分配下一个task给他,此时等待executor计算资源释放,如果在等待时间内没有释放,则会将task的执行位置修改为node local或者rack local或者any,所以有少量的task被分配到其他executor上。
以图为证:
如图中所示,因为kafka topic是3个分区,有3个executor主要承担task任务,当spark.streaming.concurrent.job=2 时,机器905,469,928上会有少量task在执行。当spark.streaming.concurrent.job=1时,只有三个executor承担所有task任务。
下图为某一个数据量很大(执行时间长)的job执行情况:
说明当job出现堆积的时候,因为locality超时特性,executor会将task分配到其他executor执行。
- spark streaming 有趣问题汇总
- spark streaming接kafka数据方式汇总
- Spark Streaming 的一些问题
- spark streaming 写hdfs问题
- Spark Streaming Accumulator 并发问题
- Spark Streaming从1.4.1升级至2.0.0-preview遇到的问题汇总
- yarn-cluster运行spark streaming问题
- Spark Streaming Kafka CreateDirectDStreaming 遇见的问题
- spark streaming 读取kafka数据问题
- Spark streaming 作业需要注意的问题
- Spark Streaming笔记——技术点汇总
- Spark Streaming笔记——技术点汇总
- Spark Streaming
- spark streaming
- Spark/Streaming
- Spark Streaming
- spark streaming
- Spark Streaming
- css js 限制td显示数量
- quick-cocos2d-x 脚本和资源加密
- Linux设备模型(2)_Kobject
- 连接池(DBCP和C3P0)
- 控制面板的面板项找不到?
- spark streaming 有趣问题汇总
- 20个高级Java面试题汇总,你要来挑战吗?
- ElasticSearch核心基础之映射
- 使用numpy完成item-cf算法
- 深度学习硬件对比评测:英特尔FPGA和英伟达GPU哪个更好?
- hdfs读写文件核心流程详解巧说
- 数据结构C++作业
- thinkphp5中使用phpmailer实现发送邮件功能 及自己遇到的坑
- CAS in java