【互动问答分享】第12期决胜云计算大数据时代Spark亚太研究院公益大讲堂

来源：互联网发布：淘宝达人和微淘号达人编辑：程序博客网时间：2024/05/14 05:16

“决胜云计算大数据时代”

Spark亚太研究院100期公益大讲堂【第12期互动问答分享】

Q1：jobserver 企业使用情况如何？

Q2：请问，jobserver是适合企业内部还是供外部客户使用（可能并发、安全有要求），还是两者ok?

Q3：请问，spark 跑1T数据需要多少内存才能很快跑完

这首先和程序运行时候在每台Worker上使用的内存和CPU有关，提交程序的时候可以手动配置；
其次是和带宽有关系，Shuffle的要尽量减少数据；
Driver所在的机器的配置也是极为重要的，一般而言Driver所在的Client的内存和CPU根据实际情况要尽可能的更高的配置，同时，也是至关重要的Driver和Spark集群要在同一个网络环境，应为Driver要不断的task给Worker上的Executor，同时接受Driver的数据；

Q4：我目前是解决stackoverflow Error 是用checkPoint解决lineage过长的问题但是这样会影响效率怎样在效率和error之间均衡呢？

:StackOverflow可以通过配置BlockManager内存管理策略来缓解；
对于checkpoint，要根据实际情况调整，例如对于Spark Streaming 默认是在内存有两份数据副本，此时如果处理能力无法及时消费实时流数据，就会极为容易产生StackOverflow的情况，此时就要根据实际情况调整时间窗口和进行checkpoint；

0 0