大数据之起步搭开发环境
来源:互联网 发布:seo编辑工资一般多少 编辑:程序博客网 时间:2024/05/21 15:38
上个星期电脑被我搞坏了之后很多软件就没再安装了,昨天看到阿里宣传的大数据比赛,于是连夜开始重新安装数据挖掘的各种软件,下面就记录一下,也算是记下我比赛的进程吧:
系统:3.9.10-100.fc17.i686.PAE
包管理软件为Yum,有了Yum,再也不担心软件安装的依赖性问题,首先安装Java,由于之前安装Textlive中依赖Java,所以这里就没必要再安装了,有了Java后就安装Mahout,http://mirrors.cnnic.cn/apache/mahout/0.9/ ,下载mahout-distribution-0.9-src.tar.gz ,由于Mahout需要Maven,所以接着安装Maven, 执行yum install maven。集成开发平台使用eclipse,eclipse的安装也使用Yum,执行yum install eclipse,解压缩mahout,将解压缩的文件移到eclipse的工作目录/home/XXX/workspace/,进入解压缩的文件夹,打开Readme.txt,根据里面的提示依次执行:
mvn -DskipTests clean install (需要一段时间)
mvn eclipse\:eclipse
安装完成后就可以将Mahout导入到eclipse中,这需要m2eclipse的帮助,在eclipae菜单栏中选择帮助—>安装新软件,然后输入me2的安装地址http://download.eclipse.org/technology/m2e/releases 。接着从eclipse->file->import->existing project into workspace,mahout-distribution-0.9目录导入,即可。有时这里会出现错误,如果出现路径问题就是由于某些依赖的jar包没有添加进来,可以通过项目—>属性—>添加包来新增jar包来解决。
下面就是Hadoop的安装了,
创建hadoop用户组:groupadd hadoop
创建hadoop用户并添加到hadoop组里: useradd -g hadoop hadoop
为hadoop设置密码:passwd hadoop,enter后输入密码即可。
为hadoop用户添加root权限,编辑/etc/sudoers:添加hadoop ALL=(ALL:ALL) ALL
JDK需要安装,fedora17中直接使用yum即可。
然后为hadoop,http://mirror.bit.edu.cn/apache/hadoop/common/stable2/,下载hadoop-2.2.0.tar.gz ,解压缩。
首先建立ssh无密码登录
首先要转换成root用户,执行su,输入root密码即可。
创建ssh-key,与GigHub一样,采用rsa方式ssh-keygen -t rsa,然后一路回车就行了,然后, 进入~/.ssh/目录下将公钥另存到authorized_keys中,即执行cat id_rsa.pub > authorized_keys,这样就可以了,可以执行ssh localhost验证一下,无需密码即可登陆。
下面就是给上面解压的Hadoop文件配置了。
首先配置Hadoop环境变量,打开/etc/profile,添加
export HADOOP_HOME=/home/lmdyyh/public/hadoop-2.2.0
export PATH=$HADOOP_HOME/sbin:$PATH
保存后source一下就可以了。
接下来就是配置/home/lmdyyh/public/hadoop-2.2.0/etc/hadoop下的各种文件了,首先是hadoop-env.sh,找到JAVA_HOME,在上面一行添加JAVA_HOME=/usr/bin/java,即自己的JDK路径。
接着是core-site.xml、hdfs-site.xml、yarn-site.xml 、mapred-site.xml.template四个文件。
core-site.xml如下
<property> <name>fs.default.name</name> <value>hdfs://localhost:9000</value> </property> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/home/lmdyyh/hadoop/tmp</value> </property>hdfs-site.xml
<property> <name>dfs.namenode.name.dir</name> <value>/home/lmdyyh/hadoop/namenode</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>/home/lmdyyh/hadoop/datanode</value>mapred-site.xml.template
<name>mapreduce.framework.name</name> <value>yarn</value>
yarn暂时就不用配置了。
下面切换到Hadoop的安装目录,启动Hadoop,首先格式化hdfs
bin/hdfs namenode -format
启动namenode和datanode
sbin/hadoop-daemon.sh start namenode
sbin/hadoop-daemon.sh start datanode
启动Manager管理,
sbin/yarn-daemon.sh start resourcemanager
sbin/yarn-daemon.sh start nodemanager
执行jps,如果输出如下
4115 Jps
3780 ResourceManager
3680 DataNode
3585 NameNode
4026 NodeManager
则说明都启动成功了。看看Hadoop管理页面,http://127.0.0.1:8088/ 和namenode的节点信息http://127.0.0.1:50070。
以上关闭的命令均是将start替换为stop即可。
- 大数据之起步搭开发环境
- J2EE起步之搭建开发环境
- Python起步之常用开发环境
- 大数据起步
- 大数据入门之开发环境搭建之hadoop篇
- 王家林 云计算分布式大数据Hadoop实战高手之路---从零开始 第二讲:全球最详细的从零起步搭建Hadoop单机和伪分布式开发环境图文教程
- NXP-LPC1768起步之开发环境搭建与GPIO
- D3DX开发之起步
- 大数据之环境配置
- Linux环境配置之起步
- hadoop起步之环境安装
- 大数据开发之路
- 王家林的“云计算分布式大数据Hadoop实战高手之路---从零开始”的第二讲Hadoop图文训练课程:全球最详细的从零起步搭建Hadoop单机和伪分布式开发环境图文教程(长达88页的PDF)
- 初学大数据之环境搭建
- 大数据应用之Windows平台Hbase客户端Eclipse开发环境搭建
- (大数据之hadoop)Hadoop2.2.0版本多节点集群及eclipse开发环境搭建
- 大数据Hadoop基础教程之搭建开发环境及编写Hello World
- 大数据DTSpark"蘑菇云"行动之 第一课:Scala语言开发环境搭建
- 黑马程序员——程序控制结构
- 课本小Demo
- 变量声明和定义的区别
- 旅途点
- 挑选Hadoop版本
- 大数据之起步搭开发环境
- Java加密算法 RSA
- 书中对进程的形象比喻
- 【Python】对于不确定的内容,try .. except ..
- 菜鸟学习Android笔记-20140311
- 面试题目
- 四舍六入五单双算法
- 处理指令 [XML 标准]
- ip,udp的checksum算法