[hadoop+spark+python]大数据实战随手笔记

来源:互联网 发布:access2003数据库教程 编辑:程序博客网 时间:2024/05/22 10:57

1.提交任务
指令(我配置了spark-submit的环境变量)

spark-submit --class org.apache.spark.examples.SparkPi --master spark://192.168.12.233:7077 --executor-memory 10G --total-executor-cores 10  fielname
  • 逐条解释如下:
    (1)–class org.apache.spark.examples.SparkPi
    设置运行的环境,java或者yarn
    (2)–master spark://192.168.12.233:7077
    设置spark服务的地址,格式为 spark:// +
    (3)–executor-memory 10G
    分配内存,这个属性每个worker都会分配10G,根据实际情况分配
    (4)–total-executor-cores 10
    分配运行cpu核数,不超过总核数即可
    (5)fielname
    要运行的文件,相对路径或者绝对路径都可以,如果是python文件一定要能在命令行环境运行,requirment和包环境都要满足才行,我一般是把项目打包写好setup.py先编译一遍在运行主程序
阅读全文
0 0
原创粉丝点击