踩坑事件:windows操作系统下的eclipse中编写SparkSQL不能从本地读取或者保存parquet文件

来源:互联网 发布:o2olr软件下载 编辑:程序博客网 时间:2024/05/18 03:04

这个大坑... ....

如题,在Windows的eclipse中编写SparkSQL代码时,编写如下代码时,一运行就抛出一堆空指针异常:

       val conf = new SparkConf().setAppName("GenreicSaveLoad").setMaster("local")      val sc = new SparkContext(conf)      val sqlContext = new SQLContext(sc)      val df = sqlContext.read.load("D:\\tmp\\spark\\users.parquet")      df.write.save("D:\\tmp\\spark\\namesAndFavColors_scala")

这个纠结啊... ...。

后来将数据保存到hdfs上可以运行。于是我误以为不能再本地保存,后来google了一下,看很多demo都是将数据保存到本地的parquet中,于是这个猜测否决了。

后来在这里找到了答案:http://stackoverflow.com/questions/25505365/parquet-file-in-spark-sql

其回复如下:

Spark is compatible with Windows. You can run your program in a spark-shell session in Windows or you can run it using spark-submit with necessary argument such as "-master" (again, in Windows or other OS).You cannot just run your Spark program as an ordinary Java program in Eclispe without properly setting up the Spark environment and so on. You problem has nothing to do with Windows.

后来又在linux 上的spark-shell上验证了一下,可以本地保存的!!!!【本地运行读取集群上的数据目录也是可以的

所以啊,要想保存在本地,还是使用spark-submit吧,不要直接在eclipse中运行了。

0 0