Spark脚本提交/运行/部署

来源：互联网发布：js数组实例编辑：程序博客网时间：2024/06/06 03:39

本文转载地址：http://blog.csdn.net/sunbow0/article/details/42099331

尊重版权，谢谢分享

1、Spark脚本提交/运行/部署

1.1 spark-shell（交互窗口模式）

运行spark-shell需要指向申请资源的standalone spark集群信息，其参数为MASTER，还可以指定executor及driver的内存大小。

sudo spark-shell --executor-memory 5g --driver-memory1g --master spark://192.168.180.216:7077

spark-shell启动完后，可以在交互窗口中输入scala命令，进行操作，其中spark-shell已经默认生成sc对象，可以用：

val user_rdd1 = sc.textFile(inputpath, 10)

读取数据资源等。

1.2 spark-shell（脚本运行模式）

上面方法需要在交互窗口中一条一条的输入scala程序；将scala程序保存在test.scala文件中，可以通过以下命令一次运行该文件中的程序代码：

sudo spark-shell --executor-memory 5g --driver-memory1g --master spark://192.168.180.216:7077 < test.scala

运行后会自动进入spark-shell交互窗口并且运行test.scala中的程序，运行完成后，会自动退出spark-shell。

如果程序退出终端后，linux终端失效，可以试试：stty echo 命令

1.3 spark-submit （程序部署）

Spark提供了一个容易上手的应用程序部署工具bin/spark-submit，可以完成Spark应用程序在local、Standalone、YARN、Mesos上的快捷部署。可以指定集群资源master，executor/ driver的内存资源等。

sudo spark-submit --masterspark://192.168.180.216:7077 --executor-memory 5g --class mypackage.test workcount.jar hdfs://192.168.180.79:9000/user/input.txt

workcount .scala 代码打包workcount.jar，并将文件需要上传到spark的安装目录下面；

hdfs://192.168.180.79:9000/user/input.txt为输入参数；

转载请注明出处：

http://blog.csdn.net/sunbow0/article/details/42099331

0 0