在Ubuntu 14.04 64bit上搭建单机本地节点Spark 1.3.0环境
来源:互联网 发布:知乎如何收藏文章 编辑:程序博客网 时间:2024/04/29 20:46
(running Spark in local mode on single computer)
1.参见本博客前面的文章完成以下准备工作:
(1)安装JVM
(2)安装Scala
(3)安装Python或者IPython
2.官网下载Spark最新版并解压
登陆官网
http://spark.apache.org/downloads.html
cp -f spark-1.3.0-bin-hadoop2.4.tgz ~/program
tar -xf spark-1.3.0-bin-hadoop2.4.tgz -C ~/program
cd spark-1.3.0-bin-hadoop2.4
3.利用Spark自带的Python shell
使用PySpark shell, 在Spark解压的源码路径下,运行
bin/pyspark
在提示符下,依次输入下面的命令
>>> lines = sc.textFile("README.md")
>>> lines.count()
>>> lines.first()
4.修改打印日志的级别
经过上面的运行,发现shell环境中打印的日志过多, 为此我需要调整以下日志的级别.为此,我在
conf目录下面新建一个文件log4j.properties,它是log4j.properties.template的副本,将其中
下面的行
log4j.rootCategory=INFO, console
改为
log4j.rootCategory=WARN, console
5.使用IPython或者IPython Notebook
在命令行, 我们可以使用下面的命令来开启IPython
IPYTHON=1 ./bin/pyspark
6.使用Scala shell测试line count小程序
打开Scala版本的shell,运行
bin/spark-shell
scala> val lines = sc.textFile("README.md")
scala> lines.cout()
scala> lines.first()
7.测试Spark性能
进入到Spark的conf目录下面, 根据当前配置环境, 复制并修改spark_env.sh文件
cp -f spark-env.sh.template spark-env.sh
vim spark-env.sh
添加如下内容
sbin/start-master.sh
run-example org.apache.spark.examples.SparkPi local
run-example org.apache.spark.examples.SparkPi spark://127.0.0.1:7077
run-example org.apache.spark.examples.SparkLR spark://127.0.0.1:7077
参考文献
1.参见本博客前面的文章完成以下准备工作:
(1)安装JVM
(2)安装Scala
(3)安装Python或者IPython
2.官网下载Spark最新版并解压
登陆官网
http://spark.apache.org/downloads.html
选择包类型为"Pre-built for Hadoop 2.4 and later"并下载对应的tarball文件spark-1.3.0-bin-hadoop2.4.tgz
cp -f spark-1.3.0-bin-hadoop2.4.tgz ~/program
tar -xf spark-1.3.0-bin-hadoop2.4.tgz -C ~/program
cd spark-1.3.0-bin-hadoop2.4
ls
3.利用Spark自带的Python shell
使用PySpark shell, 在Spark解压的源码路径下,运行
bin/pyspark
在提示符下,依次输入下面的命令
>>> lines = sc.textFile("README.md")
>>> lines.count()
>>> lines.first()
4.修改打印日志的级别
经过上面的运行,发现shell环境中打印的日志过多, 为此我需要调整以下日志的级别.为此,我在
conf目录下面新建一个文件log4j.properties,它是log4j.properties.template的副本,将其中
下面的行
log4j.rootCategory=INFO, console
改为
log4j.rootCategory=WARN, console
然后重新打开shell,发现调试信息少了很多
5.使用IPython或者IPython Notebook
在命令行, 我们可以使用下面的命令来开启IPython
IPYTHON=1 ./bin/pyspark
使用下面的命令来开启IPython Notebook
IPYTHON_OPTS="notebook" ./bin/pyspark这会在默认浏览器中打开如下页面
点击上面的"New Notebook"打开一个新的页面标签, 在其中输入如下命令行,并按播放按钮来执行结果
按Ctrl-D退出shell环境
6.使用Scala shell测试line count小程序
打开Scala版本的shell,运行
bin/spark-shell
scala> val lines = sc.textFile("README.md")
scala> lines.cout()
scala> lines.first()
按Ctrl-D退出shell环境
7.测试Spark性能
进入到Spark的conf目录下面, 根据当前配置环境, 复制并修改spark_env.sh文件
cp -f spark-env.sh.template spark-env.sh
vim spark-env.sh
添加如下内容
sbin/start-master.sh
启动从服务器节点
sbin/start-slaves.sh spark://127.0.0.1:7077
关闭分别使用
sbin/stop-master.sh
sbin/stop-slaves.sh
浏览master UI
http://127.0.0.1:8080/
http://127.0.0.1:8081/
run-example org.apache.spark.examples.SparkPi local
run-example org.apache.spark.examples.SparkPi spark://127.0.0.1:7077
run-example org.apache.spark.examples.SparkLR spark://127.0.0.1:7077
未解决的问题:
在运行样例时,发现配置spark ip为127.0.0.1有错误, 最好是运行在公网上的ip
参考文献
[1].http://www.linuxidc.com/Linux/2014-06/103210.htm
[2].http://www.it165.net/os/html/201405/8430.html
[3].Learning Spark Lightning Fast Big Data Analysis.pdf 0 0
- 在Ubuntu 14.04 64bit上搭建单机本地节点Spark 1.3.0环境
- 在Ubuntu 14.04 64bit上搭建单机本地节点Spark 1.3.0环境
- 在Ubuntu 14.04 64bit上搭建Scala开发环境
- Ubuntu /Spark单机环境搭建
- 在Ubuntu 14.04(64bit)上搭建Android编译环境(通用版)
- 在ubuntu 14.04 64bit 上搭建c/c++集成开发环境
- ubuntu 14.04 Spark单机环境搭建与实例使用
- Ubuntu 16.04 Spark单机环境搭建
- 在Uubuntu 14.04 64bit上搭建NumPy函数库环境
- 单机搭建spark环境
- Ubuntu上搭建Hadoop环境(单机版)
- Spark实战:单节点本地模式搭建Spark运行环境
- ubuntu 14.04 spark单机平台搭建
- 在Ubuntu 14.04 64bit上生成ATS本地离线文档
- 在Ubuntu 12.04 64bit上搭建Crtmpserver视频点播服务
- 在Ubuntu 12.04 64bit上搭建Crtmpserver视频点播服务
- 在 CentOS 6.0 64bit 上搭建Sphinx环境
- 在 WIN8 64bit 上搭建 Golang + Zeromq 开发环境
- 胡晓燕作业
- 看cuda初级教程视频笔记(周斌讲的)--CUDA编程1
- linux环境变量设置
- android 下拉刷新/上拉加载更多【pull-to-refresh】
- hdu 5012(bfs)
- 在Ubuntu 14.04 64bit上搭建单机本地节点Spark 1.3.0环境
- 第二周--课后实践:阅读程序(2)
- 例题3.4 K个最小和 UVa11997
- 大型网站技术架构
- NSNotificationQueue多线程
- 关于OC对象若干问题
- Find Peak Element
- libgdx 游戏设计思路
- 初识STL vector