Spark1.0.0 history server 配置
来源:互联网 发布:双色球软件2016破解版 编辑:程序博客网 时间:2024/06/05 19:43
在运行Spark应用程序的时候,driver会提供一个webUI给出应用程序的运行信息,但是该webUI随着应用程序的完成而关闭端口,也就是说,Spark应用程序运行完后,将无法查看应用程序的历史记录。Spark history server就是为了应对这种情况而产生的,通过配置,Spark应用程序在运行完应用程序之后,将应用程序的运行信息写入指定目录,而Spark history server可以将这些运行信息装载并以web的方式供用户浏览。
[hadoop@hadoop1 conf]$ cd ..
hadoop@wyy:/app/hadoop/spark100/conf$ cd ..
点任意应用程序,可以查看应用程序运行信息:
要使用history server,对于提交应用程序的客户端需要配置以下参数(在conf/spark-defaults.conf中配置):
- spark.eventLog.enabled 是否记录Spark事件,用于应用程序在完成后重构webUI。
- spark.eventLog.dir 如果spark.eventLog.enabled为 true,该属性为记录spark事件的根目录。在此根目录中,Spark为每个应用程序创建分目录,并将应用程序的事件记录到在此目录中。用户可以将此属性设置为HDFS目录,以便history server读取历史记录文件。
- spark.yarn.historyServer.address Spark history server的地址(不要加http://)。这个地址会在Spark应用程序完成后提交给YARN RM,然后RM将信息从RM UI写到history server UI上。
而对于history server的服务端,可以配置以下环境变量:
- SPARK_DAEMON_MEMORY 分配给history server的内存大小,默认512m。
- SPARK_DAEMON_JAVA_OPTS history server的JVM选择,默认为空。
- SPARK_PUBLIC_DNS history server的公网地址,如果不设置,可以用内网地址来访问。默认为空。
- SPARK_HISTORY_OPTS history server的属性设置,属性如下面所示。默认为空。
2:实验环境
实验环境参见Spark1.0.0 开发环境快速搭建 。
实验代码参见使用IntelliJ IDEA开发Spark1.0.0应用程序 的SparkPi和 Spark1.0.0源代码/examples/src/main/python/pi.py (在文件结尾增加了一句sc.stop()) 。
3:实验
A:实验计划
B:集群配置并启动history server
虚拟机群:
[root@hadoop1 ~]# su - hadoop
[hadoop@hadoop1 ~]$ cd /app/hadoop/hadoop220
[hadoop@hadoop1 hadoop220]$ sbin/start-dfs.sh
[hadoop@hadoop1 hadoop220]$ bin/hdfs dfs -mkdir /sparklogs
[hadoop@hadoop1 hadoop220]$ sbin/start-yarn.sh
[hadoop@hadoop1 hadoop220]$ cd ../spark100/conf
[hadoop@hadoop1 conf]$ cp spark-defaults.conf.template spark-defaults.conf
[hadoop@hadoop1 conf]$ vi spark-defaults.conf
[hadoop@hadoop1 conf]$ cat spark-defaults.conf
- spark.eventLog.enabled true
- spark.eventLog.dir hdfs://hadoop1:8000/sparklogs
- spark.yarn.historyServer.address hadoop1:18080
[hadoop@hadoop1 spark100]$ sbin/start-all.sh
[hadoop@hadoop1 spark100]$ sbin/start-history-server.sh hdfs://hadoop1:8000/sparklogs
C:客户端配置
mmicky@wyy:~$ su - hadoop
hadoop@wyy:~$ cd /app/hadoop/spark100
hadoop@wyy:/app/hadoop/spark100$ cd conf
hadoop@wyy:/app/hadoop/spark100/conf$ cp spark-defaults.conf.template spark-defaults.conf
hadoop@wyy:/app/hadoop/spark100/conf$ vi spark-defaults.conf
hadoop@wyy:/app/hadoop/spark100/conf$ cat spark-defaults.conf
- spark.eventLog.enabled true
- spark.eventLog.dir hdfs://hadoop1:8000/sparklogs
- spark.yarn.historyServer.address hadoop1:18080
D:客户端提交scala程序
hadoop@wyy:/app/hadoop/spark100$ ./bin/spark-submit --master local[*] --class week2.SparkPi --executor-memory 2g --driver-memory 1g week2.jar
hadoop@wyy:/app/hadoop/spark100$ ./bin/spark-submit --master spark://hadoop1:7077 --class week2.SparkPi --executor-memory 2g --driver-memory 1g week2.jar
hadoop@wyy:/app/hadoop/spark100$ ./bin/spark-submit --master yarn-client --class week2.SparkPi --executor-memory 2g --driver-memory 1g week2.jar
hadoop@wyy:/app/hadoop/spark100$ ./bin/spark-submit --master yarn-cluster --class week2.SparkPi --executor-memory 2g --driver-memory 1g week2.jar
E:虚拟机群提交python程序
[hadoop@hadoop1 spark100]$ ./bin/spark-submit --master local[*] --executor-memory 2g --driver-memory 1g pi.py
[hadoop@hadoop1 spark100]$ ./bin/spark-submit --master spark://hadoop1:7077 --executor-memory 2g --driver-memory 1g pi.py
[hadoop@hadoop1 spark100]$ ./bin/spark-submit --master yarn-client --executor-memory 2g --driver-memory 1g pi.py
[hadoop@hadoop1 spark100]$ ./bin/spark-submit --master yarn-cluster--executor-memory 2g --driver-memory 1g pi.py
F:检查history server工作情况
用浏览器打开hadoop1:18080
4:TIPS
- driver在SparkContext使用stop()方法后才将完整的信息提交到指定的目录,如果不使用stop()方法,即使在指定目录中产生该应用程序的目录,history server也将不会加载该应用程序的运行信息。所以如果直接使用Spark1.0.0源代码/examples/src/main/python/pi.py,就无法显示其应用程序,在最后加上一行sc.stop()后,就可以显示。
- history server增强版代码可以参看https://github.com/apache/spark/pull/718/files#r13398770
转自:http://blog.csdn.net/book_mmicky/article/details/31838035
0 0
- Spark1.0.0 history server 配置
- Spark1.0.0 history server 配置
- Spark1.0.0 history server 配置
- 配置Spark history server
- spark history server 配置
- Spark History Server配置
- Spark1.0.0 环境变量配置
- Spark1.0.0 属性配置
- Spark1.0.0属性配置
- Spark1.0.0 属性配置
- Spark1.0.0属性配置
- Spark1.0.0 集群配置
- Spark1.0.0属性配置
- 配置&使用Spark History Server
- Spark History Server配置使用
- Spark History Server配置使用
- Spark history Server 配置过程
- Spark History Server配置使用
- Mysql分表和分区的区别
- Spark On Yarn(HDFS HA)详细配置过程
- Google hacking语法总结
- 用pil产生验证码出现:ImportError: The _imagingft C module is not installed
- 【解决】centos6.2 spark cluster问题(持续追加)
- Spark1.0.0 history server 配置
- Brackets Sequence(记搜)
- hdu4747(线段树区间更新)
- 程序中的keywords的缩写记录
- 019写程序在一棵二叉树中找到两个结点的最近共同祖先(keep it up)
- 软件系统开发中的数据交换协议
- 单例模式
- MinGW安装
- Spark1.0.0 运行架构基本概念