window 下 notebook 中的 pyspark安装
来源:互联网 发布:dota2 for mac 编辑:程序博客网 时间:2024/05/16 07:02
背景:小组成员都习惯用python,但是有spark计算的需求,需要一个快速上手的环境
https://www.cnblogs.com/zhw-080/archive/2016/08/05/5740580.html
这位朋友已经写得很详细,就是自己手写环境变量够不够细心的问题
第一步:安装anaconda
试一下命令行启动,确保ipython从anaconda启动
第二步:安装spark(需要提前安装JDK)
到官网下载spark安装包
http://spark.apache.org/downloads.html
我直接下的最新版本
第三步:配置系统环境变量
直接贴出
Path中的内容
C:\ProgramData\Oracle\Java\javapath;
%SystemRoot%\system32;%SystemRoot%;
%SystemRoot%\System32\Wbem;
%SYSTEMROOT%\System32\WindowsPowerShell\v1.0\;
D:\Anaconda3;
%JAVA_HOME%\bin;
%JAVA_HOME%\jre\bin;
%SPARK_HOME%\bin;
%SPARK_HOME%\sbin;
D:\spark-2.2.0-bin-hadoop2.7\spark-2.2.0-bin-hadoop2.7\python\pyspark
PYTHONPATH中内容
%SPARK_HOME%\python\lib\py4j;
%SPARK_HOME%\python\lib\pyspark;
D:\Anaconda3
第四步:拷贝 E:\spark\python\pyspark 到 D:\anaconda\Lib\site-packages 目录下
第五步:启动 配置好后在cmd中直接输入 pyspark
成功的话网页会自动打开http://localhost:8888/tree#
测试:
from pyspark import SparkContextsc = SparkContext.getOrCreate()#我这里不用getOrCreate会报错print("pyspark version:" + str(sc.version))
pyspark version:2.2.0
这里还有很多可以学习和测试的例子
https://www.iteblog.com/archives/1395.html
遇到的问题
我直接在cmd中启动pyspark后,未做任何import,读取到的sc是这样的 空值
from pyspark import SparkContext sc=SparkContext("local","PySparkShell")#
这种方法启动会遇到
Cannot run multiple SparkContexts at once; existing SparkContext(app=PySparkShell, master=local[*]) created by <module> at D:\Anaconda3\lib\site-packages\IPython\utils\py3compat.py:186
的问题
就算用getOrCreate()启动,sqlContext = SQLContext(sc)也是会报错,因为已经启动过,再启动数据库那边一样会报错
Another instance of Derby may have already booted the database C:\Users\luhongkai\metastore_db.Caused by: java.sql.SQLException: Unable to open a test connection to the given database. JDBC url = jdbc:derby:;databaseName=metastore_db;create=true, username = APP. Terminating connection pool (set lazyInit to true if you expect to start your database after your app). Original Exception: ------
总之各种各样的问题
我在想是不是cmd打开pyspark和import的时候启动过一个SparkContext,然后再启动就会有问题
尝试手动启动
import osimport sysspark_path = "D:/spark-2.2.0-bin-hadoop2.7/spark-2.2.0-bin-hadoop2.7"os.environ['SPARK_HOME'] = spark_pathos.environ['HADOOP_HOME'] = spark_pathsys.path.append(spark_path + "/bin")sys.path.append(spark_path + "/python")sys.path.append(spark_path + "/python/pyspark/")sys.path.append(spark_path + "/python/lib")sys.path.append(spark_path + "/python/lib/pyspark.zip")sys.path.append(spark_path + "/python/lib/py4j-0.10.4-src.zip")from pyspark import SparkContextfrom pyspark import SparkConfsc = SparkContext("local", "test")
凑合着用吧
后续会尝试
spark_df=sqlContext.createDataFrame(pandas_df)
的一些用法
- window 下 notebook 中的 pyspark安装
- 如何在windows下安装配置pyspark notebook
- Ubuntu下安装PySpark
- win10下安装pyspark
- 基于pyspark 和scala spark的jupyter notebook 安装
- pyspark notebook的使用
- pyspark调用jupyter notebook
- [pySpark][笔记]spark tutorial from spark official site在ipython notebook 下学习pySpark
- 在win7下配置pyspark在jupyter notebook中使用的简单方法
- LInux 下安装 python notebook
- ubuntu下安装 ipython notebook
- ubuntu下安装ipython notebook
- Linux下安装IPython Notebook
- win10 下安装IPython notebook
- windows下安装jupyter notebook
- pyspark安装
- ubuntu下安装Anaconda后打不开ipython notebook (jupyter notebook)
- Configuring IPython Notebook Support for PySpark
- 《设计模式》学习笔记7——观察者模式
- iOS 同一页面加载上百张图片,迅速滑动时导致内存暴涨程序崩溃的参考解决方法
- 深入理解脚本化CSS系列第三篇——脚本化CSS类
- 第14周项目3
- UML类图画法及其之间的几种关系
- window 下 notebook 中的 pyspark安装
- Java集合框架上机练习题
- android 数据存储和访问方式四:ContentProvider(内容提供者、数据共享)详解
- 【Scikit-Learn 中文文档】Pipeline(管道)和 FeatureUnion(特征联合): 合并的评估器
- 创建自定义输入法
- android手机与蓝牙4.0的之间的通讯
- Android消息推送解析
- 安卓按键:普通的截图函数
- 欢迎使用CSDN-markdown编辑器