用pycharm + python写spark（spark-2.0.1-bin-hadoop2.6）

来源：互联网发布：淘宝怎么改收获地址编辑：程序博客网时间：2024/05/29 09:59

一、将pyspark放入：
在pycharm看位置

该目录位置（我的是mac）：
/Library/Python/2.7/site-packages

二、env配置：
步骤1：
配置env1
步骤2：
配置env2
步骤3：
配置env3
SPARK_CLASSPATH
/Users/Chaves/workspace/spark/hbase-0.98.3/lib/:/Users/Chaves/workspace/spark/spark-2.0.1-bin-hadoop2.6/lib/:

SPARK_HOME
/Users/Chaves/workspace/spark/spark-2.0.1-bin-hadoop2.6

更多其他pycharm 的详细设计见:http://blog.csdn.net/u013660881/article/details/46777415

三、运行命令：
1，spark 终端运行命令
如本机spark包位置
/Users/个人目录/workspace/spark/spark-2.0.1-bin-hadoop2.6/conf
spark-env.sh

2，修改SPARK_CLASSPATH
2.1，在以下spark的bin目录下运行:
/Users/个人目录/workspace/spark/spark-2.0.1-bin-hadoop2.6/bin

2.2，启动命令(./spark-submit –jars包)
./spark-submit —jars jar包地址 —py-files 工具包算法文件地址参数1 参数2 参数3 …nt

2.0与1.0的区别：

spark = SparkSession.builder.master("local").appName("pyspark2_0_1_test").getOrCreate()sc = self.spark.sparkContexthc = HiveContext(sc)....

0 0