禁用共享jar包上传,加快任务启动

来源:互联网 发布:网络视频推广方案 编辑:程序博客网 时间:2024/06/03 17:35
禁用共享jar包上传,加快任务启动

发现启动spark-sql的时候比较慢,肿么了?平时为减少一堆信息干扰,console没有设置INFO级别,需要改回去看看怎么回事。
vi log4j.properties
log4j.rootCategory=WARN, console
改成
log4j.rootCategory=INFO, console
发现了,一个280M的共享jar包每次启动都上传一次。天哪!!!!
插图:


于是搜到:
Spark优化:禁止应用程序将依赖的Jar包传到HDFS
http://www.iteblog.com/archives/1173

vi spark-defaults.conf
spark.yarn.jar=hdfs://mycluster/user/spark/lib/spark-assembly-1.5.0-cdh5.5.0-hadoop2.6.0-cdh5.5.0.jar
修改后,再次观察:重要的一条看到了。。。
Source and destination file systems are the same. Not copying hdfs://mycluster/user/spark/lib/spark-assembly-1.5.0-cdh5.5.0-hadoop2.6.0-cdh5.5.0.jar
省去这个上传动作,快多了。

插图:


看看“Environment”,有新发现,相比之前多了一个spark.yarn.jar属性。



0 0