pyspark使用指定python环境后的提交方法

来源:互联网 发布:联想m41指纹识别软件 编辑:程序博客网 时间:2024/05/22 02:06

一、扫盲

这篇文章很好的解释了如下几个问题:
  1. spark on Yarn 是什么?
  2. pyspark application 的运行原理是什么?
  3. pyspark application 如何在 Yarn 运行?

二、实际

  • 将python环境打包
cd path_to_python
*注意这里要进入python目录下打包,否则整个路径(就是python所在的路径)都会被打包,后面解压的时候,python前面会出现超长路径,不能正常解析报错
zip -r path_to_pythonzip/python_user.zip ./*
  • 将python环境上传至hdfs
hadoop fs -put python_user.zip 
  • 修改spark配置文件
配置spark-defualts.config 文件,使得python上传后,在进行spark-submit时,会自动分发python环境的包到各个工作节点。
cp spark-defaults.conf  spark-user.conf# 修改相关配置spark.yarn.dist.archives path_to_hdfs/python_user.zip#python

* 注意最后面的 #python 不能删掉,他大概会在这个zip解压后的路径下找到python路径,然后命名为python。这涉及到配置文件中pyspark 的 python 能否找对

 

  • 修改提交脚本
#!bin/bashspark-submit --master yarn \--driver-memory 4G --executor-memory 12G \--properties-file conf/spark-user.conf \--py-files other_dependence.py main.py

三、运行结果

简单运行一下,输出python环境中的gensim版本

阅读全文
'); })();
0 0
原创粉丝点击
热门IT博客
热门问题 老师的惩罚 人脸识别 我在镇武司摸鱼那些年 重生之率土为王 我在大康的咸鱼生活 盘龙之生命进化 天生仙种 凡人之先天五行 春回大明朝 姑娘不必设防,我是瞎子 光头铁汉阿sir落泪 铁汉生态股吧 水浒之铁汉传奇 攻略铁汉公爹 铁汉生态股票 铁汉生态建设有限公司 深圳铁汉生态招聘 铁汉生态股票行情 铁汉生态环境股份有限公司 铁汉生态高管大量离职 铁汉柔情权少宠妻萌萌哒 铁汉柔情下一句是什么 铁汉生态刘水判刑几年 铁沙 铁沙陈飞林秋涵 陈飞林秋涵 铁沙 铁流1949 铁流 铁流股份 铁流滚滚 铁流之歌 铁流离合器 铁流1911 烁今 铁渣 铁渣破碎机 铁炮 右旋糖酐铁分散片 右旋糖酐铁片 铁之缘片 铁纪强军教育片观后感 铁之缘片多少钱一盒 铁叶酸片 叶酸铁片 铁片 切铁锯片 铁网片 血红素铁补铁片 铁笛片作用 铁锌钙咀嚼片 铁之缘片效果怎么样 铁原阻击战纪录片全集