spark 报错:py4j.protocol.Py4JJavaError

来源:互联网 发布:淘宝最红女主播 编辑:程序博客网 时间:2024/06/06 17:50

环境:ubuntu12.04  spark 2.1.0

博主使用pyspark启动spark,按照教程运行如下代码:

lines = sc.textFile('README.md')lines.conut()
spark报错,py4j.protocol.Py4JJavaError

原来spark默认是从hdfs上都文件的,博主的文件存放在本地路径下,因此需要改为:

lines = sc.textFile("file://mydir/README.md") #mydir是你本地文件的路径lines.count()