spark 的相关配置

来源:互联网 发布:mac 截图 任意区域 编辑:程序博客网 时间:2024/06/11 17:56

export HADOOP_HOME= /home/hadoop/hadoop-2.0.0-cdh4.5.0

export HADOOP_CONF_DIR= $HADOOP_HOME/etc/hadoop

SPARK_EXECUTOR_INSTANCES=2

SPARK_EXECUTOR_CORES=1

SPARK_EXECUTOR_MEMORY=400M

SPARK_DRIVER_MEMORY=400M

SPARK_YARN_APP_NAME=”Spark 1.0.0”

其中:

(1) HADOOP_HOME:当前节点中HDFS的部署路径,因为Spark需要和HDFS中的节点在一起;

(2) HADOOP_CONF_DIR:HDFS节点中的conf配置文件路径,正常情况下此目录为$HADOOP_HOME/etc/hadoop;

(3) SPARK_EXECUTOR_INSTANCES:在Yarn集群中启动的Worker的数目,默认为2个;

(4) SPARK_EXECUTOR_CORES:每个Worker所占用的CPU核的数目;

(5) SPARK_EXECUTOR_MEMORY:每个Worker所占用的内存大小;

(6) SPARK_DRIVER_MEMORY:Spark应用程序Application所占的内存大小,这里的Driver对应Yarn中的ApplicationMaster;

(7) SPARK_YARN_APP_NAME:Spark Application在Yarn中的名字;

配置完成后,将Spark部署文件放置到Yarn的节点中即可。这里,将spark-1.0.0整个目录放到Yarn集群的一个节点192.168.1.112的/home/hadoop(设为spark的安装路径的父目录)路径下。

至于spark-env.sh文件,可以配置如下属性:

(1) SPARK_MASTER_PORT:Master服务端口,默认为7077;

(2) SPARK_WORKER_CORES:每个Worker进程所需要的CPU核的数目;

(3) SPARK_WORKER_MEMORY:每个Worker进程所需要的内存大小;

(4) SPARK_WORKER_INSTANCES:每个Worker节点上运行Worker进程的数目;

(5) SPARK_MASTER_WEBUI_PORT:Master节点对应Web服务的端口;

0 0