3000门徒内部训练绝密视频(泄密版)第6课:精通Spark集群搭建与测试
来源:互联网 发布:matlab矩阵做聚类分析 编辑:程序博客网 时间:2024/04/25 17:58
精通Spark集群搭建与测试
etc/hadoop/core-site.xml
文件系统入口
hdfs-site.xml
dfs.replication#副本数量dfs.namenode.secondary.http-address#镜像namenodedfs.namenode.name.dirdfs.datanode.data.dirdfs.namenode.checkpoint.dir
mapred-site.xml
mapreduce.framwork.nameyarn
yarn-site.xml
yarn.resourcemanager.hostnameMasteryarn.nodemanager.aux-servicesmapreduce_shuffle
hadoop-env.sh
JAVA_HOMEHADOOP_HOMEvim ~/.bashrcHADOOP_HOMEHADOOP_CONF_DIRbin/hadoop jar ....sbin/一些shellstart-dfs.sh
配置slave,etc/hadoop/slaves
格式化文件系统之前,需要在其他机器上也安装
bin/hdfs namenode -formatsbin/start-dfs.shsbin/start-yarn.sh
spark安装配置
conf/spark-env.sh
JAVA_HOMESCALA_HOMEHADOOP_HOMEHADOOP_CONF_DIRSPARK_MASTER_IPSPARK_WORKER_MOEMORY=4GSPARK_EXECUTION_MEMORY=4GSPARK_DRIVER_MEMORY=4GSPARK_WORKER_CORES=8conf/slavesWorker/Slave地址conf/spark-defaults.confspark.executor.extraJavaOptions -XX:+PrintGCDetails -Dkey=value -Dnumbers="one two three"spark.eventLog.enabled truespark.eventLog.dir hdfs://Master:9000/historyserverforSparkspark.yarn.historyServer.address Master:18080spark.history.fs.logDirectory hdfs://Master:9000/historyserverforSpark#spark.default.parallelism 100
同步到其他机器:
scp -r ./spark-1.6.0-bin-hadoop2.6/ root@Worker1:/usr/local/spark
.bashrc加入SCALA_HOME SPARK_HOME 把SPARK_HOME/bin和SPARK_HOME/sbin加入PATH
sbin/start-all.sh
start-history-server.sh #记录日志
运行:
spark-submit --class org.apache.spark.examples.SparkPi (包名+类名) --master spark://Master:7077 ../lib/spark-examples-1.6.0-hadoop2.6.0.jar 1000(并行1000个)spark-submit --class org.apache.spark.examples.SparkPi --master spark://Master:7077 $SPARK_HOME/lib/spark-examples-1.6.2-hadoop2.6.0.jar 10
任务开始前分配资源,对资源进行复用。粗粒度
spark例子
./spark-shell --master spark://Master:7077>scala sc.textFile("/library/wordcount/input/Data").flatMap(_.split(" ")).map(word =>(word, 1)).reduceByKey(_+_).map(pair => (pair._2, pair._1)).sortByKey(false,1).map(pair => (pair._2, pair._1)).saveAsTextFile("/library/wordcount/output/dt_spark_......")
0 0
- 3000门徒内部训练绝密视频(泄密版)第6课:精通Spark集群搭建与测试
- 3000门徒内部训练绝密视频(泄密版)第4课:Scala模式匹配、类型系统彻底精通与Spark源码阅读
- 3000门徒内部训练绝密视频(泄密版)第2课:Scala面向对象彻底精通及Spark源码阅读
- 3000门徒内部训练绝密视频(泄密版)第3课:Scala中函数式编程彻底精通及Spark源码阅读
- 3000门徒内部训练绝密视频(泄密版)第5课:彻底精通Scala隐式转换和并发编程及Spark源码阅读
- 3000门徒内部训练绝密视频(泄密版)第7课:实战解析Spark运行原理和Rdd解密
- 3000门徒内部训练绝密视频(泄密版)第8课:彻底实战详解使用IDE开发Spark程序
- 3000门徒内部训练绝密视频(泄密版)第10课:彻底实战详解使用Java开发Spark程序
- 3000门徒内部训练绝密视频(泄密版)第9课:彻底实战详解使用IntelliJ IDEA下的Spark程序开发
- 3000门徒内部训练绝密视频(泄密版)第1课:大数据最火爆语言Scala光速入门
- DT大数据梦工厂- 第6课 精通Spark集群搭建与测试
- 精通Spark集群搭建与测试
- 第6集 精通spark集群搭建
- 第6讲:精通Spark集群和测试
- Spark集群搭建与测试
- Spark集群搭建与测试
- spark测试集群搭建
- 大数据IMF传奇行动绝密课程第12课:HA下的Spark集群工作原理解密
- mysqli连接数据库
- 2016/08/11 多态
- HDU1542 线段树+离散化+扫描线
- ArrayList的使用方法
- C++ Socket 一个服务器 多个客户端 (阻塞式)
- 3000门徒内部训练绝密视频(泄密版)第6课:精通Spark集群搭建与测试
- 钱仓【NOIP2016提高A组8.11】
- 微信支付H5调用支付详解
- JAVA中list,set,数组之间的转换详解
- Handler机制原理
- Jmeter3.0 Body Data 中文参数显示乱码的解决方式。
- git常用命令
- 数组中只出现一次的数字
- 单链表查找倒数第k个节点