spark 安装与python pycharm搭建

来源:互联网 发布:kafka数据写入 hdfs 编辑:程序博客网 时间:2024/05/21 19:35

Spark介绍与安装教程(Linux系统)

这里写图片描述

Spark的安装教程

安装JDK与Scala

  1. 下载JDK:sudo apt-get install openjdk-7-jre-headless。
  2. 下载Scala: http://www.scala-lang.org/。
  3. 解压缩:tar –zxvf scala-2.10.6.tgz。
  4. 进入sudo vim /etc/profile在下面添加路径:
PATH=$PATH:${SCALA_HOME}/bin
  • 1
  • 1
  1. 使修改生效source /etc/profile。
  2. 在命令行输入scala测试。

安装Spark

  1. 下载Spark: http://spark.apache.org/downloads.html 
    这里写图片描述
  2. 解压缩: tar –zxvf spark-1.5.1-bin-hadoop2.6.tgz
  3. 进入sudo vim /etc/profile在下面添加路径:
SPARK_HOME=/home/spark/spark-lectures/spark-1.5.1-bin-hadoop2.6 (解压后的包所在的路径)PATH=$PATH:${SPARK_HOME}/bin
  • 1
  • 2
  • 1
  • 2

测试

  1. 在命令行输入:spark-shell(可在安装目录中bin里面找到) 
    这里写图片描述
出现以上界面说明spark安装完成



python环境的安装

执行pyspark命令,你会看到以下结果:

简略Spark输出

Spark(和PySpark)的执行可以特别详细,很多INFO日志消息都会打印到屏幕。开发过程中,这些非常恼人,因为可能丢失Python栈跟踪或者print的输出。为了减少Spark输出 – 你可以设置$SPARK_HOME/conf下的log4j。首先,拷贝一份$SPARK_HOME/conf/log4j.properties.template文件,去掉“.template”扩展名。

编辑新文件,用WARN替换代码中出现的INFO。你的log4j.properties文件类似:

使用PyCharm配置Spark的Python开发环境

1.配置Pycharm

打开PyCharm,创建一个Project。 然后选择“Run” ->“Edit Configurations” ->“Environment variables” pycharm_conf1增加SPARK_HOME目录与PYTHONPATH目录。 - SPARK_HOME:Spark安装目录 - PYTHONPATH:Spark安装目录下的Python目录 pycharm_conf2



2.测试Pycharm

运行一个小的Spark程序看看:

"""SimpleApp"""from pyspark import SparkContextlogFile = "/home/tom/spark-1.6.0/README.md"sc = SparkContext("local","Simple App")logData = sc.textFile(logFile).cache()numAs = logData.filter(lambda s: 'a' in s).count()numBs = logData.filter(lambda s: 'b' in s).count()print("Lines with a: %i, lines with b: %i"%(numAs, numBs))

运行结果:

Lines with a: 58, lines with b: 26
注意:1.一定要在pytharm中下载py4j  左上角File——》Setting——》Project Interpreter 下载py4j2.一定要将spark python lib 文件下的pysaprk.zip,py4j-0.8.2.1.zip 导入到项目中否侧会一直有错误  左上角File——》Setting——》Project Structure  右边 Add Centent Root 导入 








原创粉丝点击