Win7 pySpark安装

来源:互联网 发布:java调用kettle 编辑:程序博客网 时间:2024/05/18 02:18


1.序

由于笔者目前用Python比较多,所以想安装下pySpark,并且在pyCharm中调用。
(1)jdk-8u91-windows-x64.exe
(2)Spark-1.3.0-bin-hadoop2.4.tgz

2.安装

(1)jdk默认安装
(2)spark-1.3.0-bin-hadoop2.4.tgz先进行解压。假设目录为E:\spark-1.3.0-bin-hadoop2.4
(3)配置环境变量Path,添加E:\spark-1.3.0-bin-hadoop2.4\bin。这时,你可以利用打开cmd,输入pySpark。没有问题的话,你可以看到下图

(4)要想在PyCharm中调用pySpark,需要加载包。将E:\spark-1.3.0-bin-hadoop2.4\python文件夹下pySpark文件夹拷贝到C:\Anaconda2\Lib\site-packages**(注:我的python安装目录是这个路径,可能有的读者是C:\Python27\Lib\site-packages)**

3.pyCharm wordCount示例

  • 新建wordCount.py文件,写代码
import sysfrom operator import addfrom pyspark import SparkContextif __name__ == "__main__":    sc = SparkContext(appName="PythonWordCount")    lines = sc.textFile('words.txt')    counts = lines.flatMap(lambda x: x.split(' ')) \                  .map(lambda x: (x, 1)) \                  .reduceByKey(add)    output = counts.collect()    for (word, count) in output:        print "%s: %i" % (word, count)    sc.stop()
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 代码中words.txt内容如下
good bad coolhadoop spark mlibgood spark mlibcool spark bad
  • 1
  • 2
  • 3
  • 4
  • 1
  • 2
  • 3
  • 4
  • 然后运行,然后报错,哈哈哈

  • 其实是还有一个地方没有配置
    在pyCharm的菜单栏里找到Run => Edit Configurations,点击下面红色标记的地方,添加环境变量。

  • 再次运行,就会得到如下结果

4.pySpark学习地址

(1)http://spark.apache.org/docs/latest/api/python/pyspark.html
(2)在上面解压的文件夹E:\spark-1.3.0-bin-hadoop2.4\examples\src\main\python中有很多示例代码,可以进行学习,本文中的wordCount就是用的上面的代码(进行了一点点修改)。

0 0