大数据之起步搭开发环境

来源:互联网 发布:seo编辑工资一般多少 编辑:程序博客网 时间:2024/05/21 15:38

上个星期电脑被我搞坏了之后很多软件就没再安装了,昨天看到阿里宣传的大数据比赛,于是连夜开始重新安装数据挖掘的各种软件,下面就记录一下,也算是记下我比赛的进程吧:

系统:3.9.10-100.fc17.i686.PAE

包管理软件为Yum,有了Yum,再也不担心软件安装的依赖性问题,首先安装Java,由于之前安装Textlive中依赖Java,所以这里就没必要再安装了,有了Java后就安装Mahout,http://mirrors.cnnic.cn/apache/mahout/0.9/ ,下载mahout-distribution-0.9-src.tar.gz ,由于Mahout需要Maven,所以接着安装Maven, 执行yum install maven。集成开发平台使用eclipse,eclipse的安装也使用Yum,执行yum install eclipse,解压缩mahout,将解压缩的文件移到eclipse的工作目录/home/XXX/workspace/,进入解压缩的文件夹,打开Readme.txt,根据里面的提示依次执行:

mvn -DskipTests clean install (需要一段时间)

mvn eclipse\:eclipse

安装完成后就可以将Mahout导入到eclipse中,这需要m2eclipse的帮助,在eclipae菜单栏中选择帮助—>安装新软件,然后输入me2的安装地址http://download.eclipse.org/technology/m2e/releases 。接着从eclipse->file->import->existing project into workspace,mahout-distribution-0.9目录导入,即可。有时这里会出现错误,如果出现路径问题就是由于某些依赖的jar包没有添加进来,可以通过项目—>属性—>添加包来新增jar包来解决。

下面就是Hadoop的安装了,

创建hadoop用户组:groupadd hadoop
创建hadoop用户并添加到hadoop组里:  useradd -g hadoop hadoop
为hadoop设置密码:passwd hadoop,enter后输入密码即可。
为hadoop用户添加root权限,编辑/etc/sudoers:添加hadoop   ALL=(ALL:ALL)  ALL
JDK需要安装,fedora17中直接使用yum即可。
然后为hadoop,http://mirror.bit.edu.cn/apache/hadoop/common/stable2/,下载hadoop-2.2.0.tar.gz ,解压缩。

首先建立ssh无密码登录
首先要转换成root用户,执行su,输入root密码即可。
创建ssh-key,与GigHub一样,采用rsa方式ssh-keygen -t rsa,然后一路回车就行了,然后, 进入~/.ssh/目录下将公钥另存到authorized_keys中,即执行cat id_rsa.pub >    authorized_keys,这样就可以了,可以执行ssh localhost验证一下,无需密码即可登陆。

下面就是给上面解压的Hadoop文件配置了。

首先配置Hadoop环境变量,打开/etc/profile,添加

export HADOOP_HOME=/home/lmdyyh/public/hadoop-2.2.0
export PATH=$HADOOP_HOME/sbin:$PATH
保存后source一下就可以了。

接下来就是配置/home/lmdyyh/public/hadoop-2.2.0/etc/hadoop下的各种文件了,首先是hadoop-env.sh,找到JAVA_HOME,在上面一行添加JAVA_HOME=/usr/bin/java,即自己的JDK路径。

接着是core-site.xml、hdfs-site.xml、yarn-site.xml 、mapred-site.xml.template四个文件。

core-site.xml如下

   <property>      <name>fs.default.name</name>      <value>hdfs://localhost:9000</value>   </property>   <property>      <name>dfs.replication</name>      <value>1</value>   </property>   <property>      <name>hadoop.tmp.dir</name>      <value>/home/lmdyyh/hadoop/tmp</value>   </property>
hdfs-site.xml

   <property>      <name>dfs.namenode.name.dir</name>      <value>/home/lmdyyh/hadoop/namenode</value>   </property>    <property>      <name>dfs.datanode.data.dir</name>      <value>/home/lmdyyh/hadoop/datanode</value>
mapred-site.xml.template

    <name>mapreduce.framework.name</name>    <value>yarn</value>

yarn暂时就不用配置了。

下面切换到Hadoop的安装目录,启动Hadoop,首先格式化hdfs

bin/hdfs namenode -format

启动namenode和datanode

sbin/hadoop-daemon.sh start namenode

sbin/hadoop-daemon.sh start datanode

启动Manager管理,

sbin/yarn-daemon.sh start resourcemanager

sbin/yarn-daemon.sh start nodemanager

执行jps,如果输出如下

4115 Jps
3780 ResourceManager
3680 DataNode
3585 NameNode
4026 NodeManager

则说明都启动成功了。看看Hadoop管理页面,http://127.0.0.1:8088/ 和namenode的节点信息http://127.0.0.1:50070。

以上关闭的命令均是将start替换为stop即可。


0 0
原创粉丝点击