基于Ubuntu/Debian的hadoop2.7.2+spark1.6实验环境快速部署
来源:互联网 发布:mysql 最小日期 编辑:程序博客网 时间:2024/05/21 03:59
一、hadoop伪分布式搭建
其实官网有比较详实的说明,英语好的可以直接看官网,地址
1、安装openjdk-7-jdk、scala
$ sudo apt-get install openjdk-7-jdk scala
2、安装ssh、rsync
$ sudo apt-get install ssh rsync
3、下载hadoop编译包,镜像地址(国内镜像竟然比US的还慢,不能忍,注意2.7的编译包为64位)
查是32还是64位的办法
$ cd hadoop-2.7.2/lib/native
$ file libhadoop.so.1.0.0
hadoop-2.7.0/lib/native/libhadoop.so.1.0.0: ELF 64-bit LSB shared object, AMD x86-64, version 1 (SYSV), not stripped
4、配置环境变量
hadoop配置文件指定java路径
$ vim etc/hadoop/hadoop-env.sh
export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64
执行命令查看是否成功
$ bin/hadoop version
5、修改hadoop配置文件
$ vim etc/hadoop/core-site.xml:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
$ vim etc/hadoop/hdfs-site.xml:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
6、设置hadoop ssh无密码访问
$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
7、格式化节点和启动hadoop
$ bin/hdfs namenode -format
$ sbin/start-dfs.sh
打开浏览器 http://localhost:50070/看是否成功
hdfs配置:在hdfs上创建用户文件夹,username最好和当前用户名相同,不然会可能出现权限问题
$ bin/hdfs dfs -mkdir /user
$ bin/hdfs dfs -mkdir /user/<username>
上传文件及文件夹使用命令:
$ bin/hdfs dfs -put /home/admin/README.md /user/<username>
8、yarn配置
$ vim etc/hadoop/mapred-site.xml:
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
$ vim etc/hadoop/yarn-site.xml:
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
启动yarn
$ sbin/start-yarn.sh
http://localhost:8088/查看是否成功
至此hadoop单节点伪分布式安装配置完成
二、spark安装配置
spark的安装相对就要简单多了
1、首先下载,地址
因为我之前已经有hadoop了所以选择第二个下载
2、下载解压后进入目录
$ cd spark-1.6.2-bin-without-hadoop/conf
$ cp spark-env.sh.template spark-env.sh
$ cp spark-defaults.conf.template spark-defaults.conf
$ vim conf/spark-env.sh
最后添加
export HADOOP_HOME=/home/administrator/project/hadoop-2.7.2
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export SPARK_DIST_CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath)
最后一个需要hadoop添加了环境变量才行。
官网配置中没有前两个配置,我运行例子时总报错,找不到hdfs jar 包。
3、回到解压目录运行示例
对于Python例子,使用spark-submit脚本代替:
$ bin/spark-submit examples/src/main/python/pi.py
成功则到此配置完成
参考资料:
http://my.oschina.net/laigous/blog/478438(环境搭建)
http://www.csdn.net/article/2015-04-24/2824552(spark入门教程)
- 基于Ubuntu/Debian的hadoop2.7.2+spark1.6实验环境快速部署
- CentOS64位6.4下Hadoop2.7.1、Mysql5.5.46、Hive1.2.1、Spark1.5.0的集群环境部署
- Spark1.3.1部署在Hadoop2.6 Yarn上
- hadoop2.6快速离线部署
- Hadoop2.7.2的部署
- 基于CDH5.4的Spark1.4.1下SparkR的部署
- 基于CDH5.4的Spark1.4.1下SparkR的部署
- spark1.2.0+hadoop2.4.0集群环境搭建
- CentOS7+Hadoop2.5.2+Spark1.5.2环境搭建
- Spark1.3.1 Standalone 基于文件系统的 HA 部署
- Spark1.6的部署配置与运行
- Hadoop2.7与Spark1.6的集群搭建
- Sqoop1.4.5(基于Hadoop2.2环境)的安装测试部署
- 基于Hadoop2.6.0的Spark1.3.1大数据处理平台的搭建
- Sqoop1.4.5-安装测试部署(基于Hadoop2.2.0环境)
- Debian & Ubuntu下89c51单片机开发环境部署
- ubuntu16.04搭建Hadoop2.7.2+spark1.6.1+mysql+hive2.0.0伪分布学习环境
- debian/ubuntu下的快速截图
- data-ng-if
- Spring Memcache配置及缺少com.danga的解决
- 关于xml库文件在ubuntu中的安装方法
- eclipse下的tomcat内存设置大小
- angular js 左右选择框 Freemarker+js
- 基于Ubuntu/Debian的hadoop2.7.2+spark1.6实验环境快速部署
- Spring框架
- 多线程设置线程先后顺序
- Eclipse 常用快捷键
- 【C/C++】解密杨辉三角
- Autolayout在UITableView中的坑
- 前端开发学习路线
- Android中ListView的几种常见的优化方法
- 两种操作botton的方法