大数据之起步搭开发环境

来源：互联网发布：seo编辑工资一般多少编辑：程序博客网时间：2024/05/21 15:38

上个星期电脑被我搞坏了之后很多软件就没再安装了，昨天看到阿里宣传的大数据比赛，于是连夜开始重新安装数据挖掘的各种软件，下面就记录一下，也算是记下我比赛的进程吧：

系统:3.9.10-100.fc17.i686.PAE

包管理软件为Yum，有了Yum，再也不担心软件安装的依赖性问题，首先安装Java，由于之前安装Textlive中依赖Java，所以这里就没必要再安装了，有了Java后就安装Mahout，http://mirrors.cnnic.cn/apache/mahout/0.9/ ，下载mahout-distribution-0.9-src.tar.gz ，由于Mahout需要Maven，所以接着安装Maven, 执行yum install maven。集成开发平台使用eclipse，eclipse的安装也使用Yum,执行yum install eclipse，解压缩mahout，将解压缩的文件移到eclipse的工作目录/home/XXX/workspace/,进入解压缩的文件夹，打开Readme.txt，根据里面的提示依次执行：

mvn -DskipTests clean install （需要一段时间）

mvn eclipse\:eclipse

安装完成后就可以将Mahout导入到eclipse中，这需要m2eclipse的帮助，在eclipae菜单栏中选择帮助—>安装新软件，然后输入me2的安装地址http://download.eclipse.org/technology/m2e/releases 。接着从eclipse->file->import->existing project into workspace，mahout-distribution-0.9目录导入，即可。有时这里会出现错误，如果出现路径问题就是由于某些依赖的jar包没有添加进来，可以通过项目—>属性—>添加包来新增jar包来解决。

下面就是Hadoop的安装了，

创建hadoop用户组：groupadd hadoop
创建hadoop用户并添加到hadoop组里： useradd -g hadoop hadoop
为hadoop设置密码：passwd hadoop,enter后输入密码即可。
为hadoop用户添加root权限，编辑/etc/sudoers：添加hadoop ALL=(ALL:ALL) ALL
JDK需要安装，fedora17中直接使用yum即可。
然后为hadoop，http://mirror.bit.edu.cn/apache/hadoop/common/stable2/，下载hadoop-2.2.0.tar.gz ，解压缩。

首先建立ssh无密码登录
首先要转换成root用户，执行su，输入root密码即可。
创建ssh-key,与GigHub一样，采用rsa方式ssh-keygen -t rsa，然后一路回车就行了，然后，进入~/.ssh/目录下将公钥另存到authorized_keys中，即执行cat id_rsa.pub > authorized_keys，这样就可以了，可以执行ssh localhost验证一下，无需密码即可登陆。

下面就是给上面解压的Hadoop文件配置了。

首先配置Hadoop环境变量，打开/etc/profile，添加

export HADOOP_HOME=/home/lmdyyh/public/hadoop-2.2.0
export PATH=$HADOOP_HOME/sbin:$PATH
保存后source一下就可以了。

接下来就是配置/home/lmdyyh/public/hadoop-2.2.0/etc/hadoop下的各种文件了，首先是hadoop-env.sh，找到JAVA_HOME，在上面一行添加JAVA_HOME=/usr/bin/java，即自己的JDK路径。

接着是core-site.xml、hdfs-site.xml、yarn-site.xml 、mapred-site.xml.template四个文件。

core-site.xml如下

   <property>      <name>fs.default.name</name>      <value>hdfs://localhost:9000</value>   </property>   <property>      <name>dfs.replication</name>      <value>1</value>   </property>   <property>      <name>hadoop.tmp.dir</name>      <value>/home/lmdyyh/hadoop/tmp</value>   </property>

hdfs-site.xml

   <property>      <name>dfs.namenode.name.dir</name>      <value>/home/lmdyyh/hadoop/namenode</value>   </property>    <property>      <name>dfs.datanode.data.dir</name>      <value>/home/lmdyyh/hadoop/datanode</value>

mapred-site.xml.template

    <name>mapreduce.framework.name</name>    <value>yarn</value>

yarn暂时就不用配置了。

下面切换到Hadoop的安装目录，启动Hadoop，首先格式化hdfs

bin/hdfs namenode -format

启动namenode和datanode

sbin/hadoop-daemon.sh start namenode

sbin/hadoop-daemon.sh start datanode

启动Manager管理，

sbin/yarn-daemon.sh start resourcemanager

sbin/yarn-daemon.sh start nodemanager

执行jps，如果输出如下

4115 Jps
3780 ResourceManager
3680 DataNode
3585 NameNode
4026 NodeManager

则说明都启动成功了。看看Hadoop管理页面，http://127.0.0.1:8088/ 和namenode的节点信息http://127.0.0.1:50070。

以上关闭的命令均是将start替换为stop即可。

0 0