使用Python连接spark程序测试

来源:互联网 发布:汇编语言vb和c语言区别 编辑:程序博客网 时间:2024/06/03 18:07
from pyspark import SparkContext
logFile = "/user/spark/text.dat"  
sc = SparkContext("local", "Simple App")
logData = sc.textFile(logFile).cache()
numAs = logData.filter(lambda s: 'a' in s).count()
numBs = logData.filter(lambda s: 'b' in s).count()
print("Lines with a: %i, lines with b: %i" % (numAs, numBs))
问题1:"No module named pyspark".
问题2: No module named py4j.java_gateway

解决方法:在环境变量里加入export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/build:$PYTHONPATH


0 0
原创粉丝点击