spark编译与onyarn的运行

来源:互联网 发布:java字符串转gbk编码 编辑:程序博客网 时间:2024/06/06 09:51

Spark on yarn执行流程源代码分析

目前的分析主要基于spark0.9.0cdh5的版本进行分析,

源代码下载地址:https://github.com/cloudera/spark.git

下载方式:gitclone url ./spark

进入spark目录,执行gitcheckoutcdh5-0.9.0_5.0.0



源代码编译

使用sbt编译spark

运行sbt命令需要使用http代理,不然连接不上网络,进入sbt/目录,使用vimsbt修改里面的内容,

在最下面java命令的第二行添加-Dhttp.proxyHost=myserver-Dhttp.proxyPort=port \

运行如下命令编译spark

SPARK_HADOOP_VERSION=2.3.0-cdh5.0.0SPARK_YARN=true sbt/sbt assembly

SPARK_HADOOP_VERSION后是hadoop的版本号,


SPARK_HADOOP_VERSION=2.2.0sbt/sbt assembly

Inaddition, if you wish to run Spark on YARN,set SPARK_YARN to true:

SPARK_HADOOP_VERSION=2.0.5-alphaSPARK_YARN=true sbt/sbt assembly

http连接代理设置:

编辑spark_home/sbt/sbt文件,在文件最后的如下脚本部分:

printf"Launching sbt from ${JAR}\n"

java\

-Xmx1200m-XX:MaxPermSize=350m -XX:ReservedCodeCacheSize=256m \

-jar${JAR} \

"$@"

修改为

printf"Launching sbt from ${JAR}\n"

java\

-Dhttp.proxyHost=myserver-Dhttp.proxyPort=port \

-Xmx1200m-XX:MaxPermSize=350m -XX:ReservedCodeCacheSize=256m \

-jar${JAR} \

"$@"


通过如下命令通过sbtspark进行编译

SPARK_HADOOP_VERSION=2.3.0-cdh5.0.0SPARK_YARN=true sbt/sbt assembly


sbt命令请参考http://www.scala-sbt.org/release/docs/Getting-Started/Running.html#common-commands


生成tar

spark_home的根目录下,执行如下命令,编译spark的分布式部署tar.gz

修改make-distribution.sh文件,

在如下命令后

Makedirectories

rm-rf "$DISTDIR"

mkdir-p "$DISTDIR/jars"

echo"Spark $VERSION built for Hadoop $SPARK_HADOOP_VERSION" >"$DISTDIR/RELEASE"



#Copy jars

cp$FWDIR/assembly/target/scala*/*assembly*hadoop*.jar "$DISTDIR/jars/"

添加此信息,把examples添加到tar.gz包中(测试过程可以执行此操作,把示例的代码一起打包起来)

#Make directories

mkdir-p "$DISTDIR/examples"



#Copy jars

cp$FWDIR/examples/target/scala*/*examples*assembly*.jar"$DISTDIR/examples/"


./make-distribution.sh--hadoop2.3.0-cdh5.0.0--with-yarn --tgz

命令执行完成后,在spark_home下会生成一个tar.gz包,spark-0.9.0-hadoop_2.3.0-cdh5.0.0-bin.tar.gz


通过Yarn运行spark示例程序

通过export命令设置yarnconf环境变量,如果没有配置全局的yarnconf环境变量


exportYARN_CONF_DIR=/home/hadoop/test.spark.yang/hadoop-2.0.0-cdh4.3.0/etc/hadoop

exportSPARK_JAR=<spark_home>/jars/spark-assembly-0.9.0-incubating-hadoop2.0.0-cdh4.3.0.jar

exportYARN_CONF_DIR=/home/hadoop/test.spark.yang/hadoop-2.0.0-cdh4.3.0/etc/hadoop

exportHADOOP_CONF_DIR=/home/hadoop/test.spark.yang/hadoop-2.0.0-cdh4.3.0/etc/hadoop

SPARK_JAR=/home/hadoop/test.spark.yang/spark-0.9.0-incubating/jars/spark-assembly-0.9.0-incubating-hadoop2.0.0-cdh4.3.0.jar



./bin/spark-classorg.apache.spark.deploy.yarn.Client \

--jar./examples/spark-examples-assembly-0.9.0-incubating.jar \

--classorg.apache.spark.examples.SparkTC \

--argsyarn-standalone \

--num-workers3 \

--worker-cores1 \

--master-memory512M \

--worker-memory1g



通过java程序执行sparkon yarn的启动

1.编写一个java应用程序,core-site/hdfs-site/yarn-site的配置文件添加到工程中。

2.sparkjar添加到工程中,作用于当前工程的class引用,

3.在工程中设置环境变量SPARK_JAR,来引用sparkjar的位置,

4.在工程中设置环境变量SPARK_LOG4J_CONF,来引用sparklog4j的位置

通过SPARK_YARN_USER_ENV配置其它用户定义的环境变量值。

通过SPARK_USE_CONC_INCR_GC配置是否使用默认的GC配置。,true/false

通过SPARK_JAVA_OPTS配置spark执行时的相关JAVA_OPTS.

通过JAVA_HOME配置java_home.

5.设置一些系统属性,共spark运行时的使用,当然这些个系统属性本身也有默认的值

a.属性名称QUEUE,默认值default。作用于am启动的队列名称,也可以在client调用进传入

b.属性名称spark.yarn.report.interval,默认值1000app运行监控的间隔时间ms

c.属性名称spark.yarn.submit.file.replication,默认值3。上传给yarn上运行的资源的复制份数,包括sparkjar,appjar

d.属性名称spark.yarn.max.worker.failures,默认值3numworker传入参数的值*2取最大值。

作用于app失败的重试次数,如果重试次数超过了指定的值,表示app运行失败。

e.属性名称spark.yarn.applicationMaster.waitTries,默认值10。等待SparkContext初始化完成的等待次数,

每次的等待时,让ApplicationMaster.sparkContextRef.wait=10000ms

f.属性名称spark.yarn.scheduler.heartbeat.interval-ms,默认值5000

通过此配置向RM设置am向其报告的时间间隔。


0 0
原创粉丝点击
热门问题 老师的惩罚 人脸识别 我在镇武司摸鱼那些年 重生之率土为王 我在大康的咸鱼生活 盘龙之生命进化 天生仙种 凡人之先天五行 春回大明朝 姑娘不必设防,我是瞎子 现在没能力偿还网贷怎么办 上海找夜场工作被骗了怎么办? 买了烂尾的楼盘怎么办 孕七个月蛀牙疼怎么办 宝宝只吃一边奶怎么办 实房付了定金后悔了怎么办 开车时遇到意外事故时怎么办 没干过影楼门市怎么办 uplay下载游戏速度0k怎么办 缓刑期间被别人打成轻伤怎么办 缓刑期间被别人打了怎么办 有缓刑被别人打怎么办 检察院不予立案怎么办公安局取保 监外执行过了又犯罪怎么办 监视居住期间再次犯罪怎么办 前妻有贷款跑了怎么办 未成年犯有缓刑罪继续犯罪怎么办 英朗出现检修esc怎么办 照相时奖状拿反了怎么办 wps文档加密后忘记密码怎么办 wps表格文件密码忘记了怎么办 wps表格密码忘记了怎么办 发布的文案缩成一行怎么办 创维电视都是VIP怎么办 挂电视距离太远怎么办 电视离沙发太近怎么办 苹果6更新11.1卡怎么办 苹果升级变卡了怎么办 迅雷被资源举报无法加速怎么办 迅雷的敏感资源无法加速怎么办 迅雷下载敏感资源无法加速怎么办 换手机微信账户怎么办 拉链拉不合没有蜡怎么办 长杆烟斗头松动怎么办? 大王卡没流量了怎么办 晚上电视想看野外生存怎么办 假离婚后真离婚怎么办 苹果手机在车上不能充电怎么办 遥控钥匙打不开车门怎么办 苹果访问限制密码忘记了怎么办 苹果手机忘记访问限制密码怎么办