Windows下Spark python 单机开发环境

来源:互联网 发布:mac双系统启动不了win 编辑:程序博客网 时间:2024/05/25 19:56

Spark提供的pyspark可以像scala shell一样提供交互式的开发,本文介绍在windows下单机环境下的pyspark配置,当然数据量小,任务简单,条件有限的可以在单机上这样做示例,数据量大任务重的还是配置linux集群环境。


1.官网下载好的Spark包解压至某目录,如E:\spark-2.1.0-bin-hadoop2.6,

这里写图片描述

2.添加环境变量SPARK_HOME如下:

这里写图片描述

3.安装findspark包,命令如下pip install findspark

4.在写交互脚本时,首先导入findspark包,然后执行findspark.init(),这两行写在前边

这里写图片描述

5.测试例子,简单测试,读入数据,输出第一条数据,中间异常由于是单机环境,还没有配置hadoop集群环境,可以忽略:

这里写图片描述

6.后续可以使用Mllib,参考官网的例子进行开发学习。

官网Mllib:http://spark.apache.org/docs/latest/ml-guide.html
官网Quick Start:http://spark.apache.org/docs/latest/quick-start.html
Spark Programming Guide:http://spark.apache.org/docs/latest/programming-guide.html

0 0
原创粉丝点击