Win7 pySpark安装
来源:互联网 发布:java调用kettle 编辑:程序博客网 时间:2024/05/18 02:18
转载:http://blog.csdn.net/a819825294
1.序
由于笔者目前用Python比较多,所以想安装下pySpark,并且在pyCharm中调用。
(1)jdk-8u91-windows-x64.exe
(2)Spark-1.3.0-bin-hadoop2.4.tgz
2.安装
(1)jdk默认安装
(2)spark-1.3.0-bin-hadoop2.4.tgz先进行解压。假设目录为E:\spark-1.3.0-bin-hadoop2.4
(3)配置环境变量Path,添加E:\spark-1.3.0-bin-hadoop2.4\bin。这时,你可以利用打开cmd,输入pySpark。没有问题的话,你可以看到下图
(4)要想在PyCharm中调用pySpark,需要加载包。将E:\spark-1.3.0-bin-hadoop2.4\python文件夹下pySpark文件夹拷贝到C:\Anaconda2\Lib\site-packages**(注:我的python安装目录是这个路径,可能有的读者是C:\Python27\Lib\site-packages)**
3.pyCharm wordCount示例
- 新建wordCount.py文件,写代码
import sysfrom operator import addfrom pyspark import SparkContextif __name__ == "__main__": sc = SparkContext(appName="PythonWordCount") lines = sc.textFile('words.txt') counts = lines.flatMap(lambda x: x.split(' ')) \ .map(lambda x: (x, 1)) \ .reduceByKey(add) output = counts.collect() for (word, count) in output: print "%s: %i" % (word, count) sc.stop()
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 代码中words.txt内容如下
good bad coolhadoop spark mlibgood spark mlibcool spark bad
- 1
- 2
- 3
- 4
- 1
- 2
- 3
- 4
然后运行,然后报错,哈哈哈
其实是还有一个地方没有配置
在pyCharm的菜单栏里找到Run => Edit Configurations,点击下面红色标记的地方,添加环境变量。
- 再次运行,就会得到如下结果
4.pySpark学习地址
(1)http://spark.apache.org/docs/latest/api/python/pyspark.html
(2)在上面解压的文件夹E:\spark-1.3.0-bin-hadoop2.4\examples\src\main\python中有很多示例代码,可以进行学习,本文中的wordCount就是用的上面的代码(进行了一点点修改)。
- Win7 pySpark安装
- Win7 pySpark安装
- Win7 pySpark安装
- Win7 pySpark安装
- pyspark安装
- Ubuntu下安装PySpark
- win10下安装pyspark
- Pyspark安装及问题
- (%%%××××××××####重要)python安装pyspark步骤&&************
- 安装完pyspark报错
- pyspark
- window 下 notebook 中的 pyspark安装
- Anaconda3.4.2配置pyspark环境,win7无hadoop
- 在mac上安装下pySpark,并且在pyCharm中python调用pyspark
- 基于pyspark 和scala spark的jupyter notebook 安装
- 如何在windows下安装配置pyspark notebook
- 解决:win远程连接ubuntu服务器安装jupyter,启动pyspark
- 在windows下用pip安装pyspark出错
- BZOJ 1131: [POI2008]Sta 树形DP
- dumpbin的使用
- 40个Java多线程问题总结
- 网站的分布式架构
- Mysql解决The total number of locks exceeds the lock table size错误
- Win7 pySpark安装
- AtCoder Grant Contest 10 F - Tree Game 博弈 dfs
- Scala函数字面量
- 创建带表头结点的单向链表,并实现各种功能
- 知识点总结之学习方式
- Gossip算法
- loadrunner 之 Web services 脚本例子
- QT——label
- 飞思卡尔 s19 转 bin