ubuntu-14.04.3上单机安装hadoop2.6

来源：互联网发布：网络购物系统编辑：程序博客网时间：2024/05/16 08:48

ubuntu 14.04.3

hadoop 2.6.3

1.创建hadoop用户名

#sudouseradd -m hadoop -s /bin/bash

/*创建了hadoop 用户，并使用 /bin/bash 作为 shell。

# sudopasswd hadoop

#sudoadduser hadoop sudo

在登陆界面使用刚创建的 hadoop 用户进行登陆。

2.更新apt

#sudoapt-get update

可能会出现下面error:

/var/lib/apt/lists/cn.archive.ubuntu.com_ubuntu_dists_trusty_main_i18n_Translation-en

解决方法：sudo rm /var/lib/apt/lists/* -vfR删除apt-getinstall 的所有软件状态包。然后再次执行sudoapt-get update

3.安装SSH、配置SSH无密码登陆

#sudoapt-get install openssh-server

安装之后，可以使用命令登录本机：#ssh localhost ，登录成功后exit退出ssh,/home/hadoop/下会自动创建一个.ssh文件夹（隐藏的）

# cd /home/hadoop/.ssh

#ssh-keygen-t rsa # 会有提示，一路按回车就可以

#cat ./id_rsa.pub >> ./authorized_keys # 加入授权

此后，再用 sshlocalhost 命令，无需输入密码就可以登录了

4.Java环境
#sudoapt-get install openjdk-7-jre openjdk-7-jdk

#默认安装位置为 /usr/lib/jvm/java-7-openjdk-amd64

#dpkg -L openjdk-7-jdk| grep '/bin/javac' #查询安装路径

接着配置 JAVA_HOME 环境变量

#vim /home/hadoop/.bashrc

在文件最前面添加:

exportJAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64

让环境变量生效并查询：

#source /home/hadoop/.bashrc

#echo $JAVA_HOME

5.安装 Hadoop 2.6.3

http://mirrors.cnnic.cn/apache/hadoop/common/ 下载hadoop-2.6.3.tar.gz 这个文件

# 解压到/usr/local中

#sudotar -zxf /下载目录/hadoop-2.6.3.tar.gz-C /usr/local

#cd/usr/local/

#sudo mv ./hadoop-2.6.3/ ./hadoop # 将文件夹hadoop-2.6.3改为hadoop

#sudo chown -R hadoop:hadoop ./hadoop # 修改文件权限

#cd/usr/local/hadoop

#./bin/hadoopversion #检查 Hadoop 是否可用

修改PATH环境变量。（和JAVA_HOME一样）

#vim /home/hadoop/.bashrc

在JAVA_HOME下面添加:

exportPATH=$PATH:/usr/local/hadoop/sbin:/usr/local/hadoop/bin

#source /home/hadoop/.bashrc

6.Hadoop单机配置

# cd/usr/local/hadoop

#mkdir./input

#cp./etc/hadoop/*.xml ./input # 将配置文件作为input

#./bin/hadoopjar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep ./input./output 'dfs[a-z.]+'

#cat./output/* # 查看运行结果

现实 dfsadmin 出现了1次

7.Hadoop伪分布式配置

Hadoop 在单节点上以伪分布式的方式运行，节点既作为 NameNode 也作为 DataNode，同时，读取的是HDFS 中的文件。

Hadoop 的配置文件在 /usr/local/hadoop/etc/hadoop中，伪分布式需要修改2个配置文件 core-site.xml 和hdfs-site.xml 。

(1)修改配置文件core-site.xml：

<name>hadoop.tmp.dir</name>

<value>file:/usr/local/hadoop/tmp</value>

</property>

<name>fs.defaultFS</name>

<value>hdfs://localhost:9000</value>

</property>

</configuration>

(2)修改配置文件hdfs-site.xml：

<name>dfs.replication</name>

</property>

<name>dfs.namenode.name.dir</name>

<value>file:/usr/local/hadoop/tmp/dfs/name</value>

</property>

<name>dfs.datanode.data.dir</name>

<value>file:/usr/local/hadoop/tmp/dfs/data</value>

</property>

</configuration>

(3)执行NameNode 的格式化:

#./bin/hdfsnamenode -format

“successfully formatted” 和“Exitting with status 0″ 的提示则表示成功

（4）开启 NaneNode 和 DataNode 守护进程。

#./sbin/start-dfs.sh

出现SSH连接提示，输入yes

（5）命令jps 来判断是否成功启动

若成功启动则会列出如下进程: “NameNode”、”DataNode”和 “SecondaryNameNode”

（6）访问Web 界面 http://localhost:50070查看 NameNode 和 Datanode 信息，

（7）运行Hadoop伪分布式实例

之前的单机模式下，grep的例子读取的是本地的数据，伪分布式则读取的是 HDFS 上的数据。

要使用 HDFS，

a.需要在HDFS 中创建用户目录：

#./bin/hdfsdfs -mkdir -p /user/hadoop

b.将./etc/hadoop 中的 xml 文件作为输入文件复制到分布式文件系统(/user/hadoop/input)

# ./bin/hdfsdfs -mkdir input

#./bin/hdfsdfs -put ./etc/hadoop/*.xml input

#./bin/hdfsdfs -ls input (查看复制结果）

执行下面命令来启动实例

# ./bin/hadoopjar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep input output'dfs[a-z.]+'

查看运行结果的命令

#./bin/hdfsdfs -cat output/*

我们也可以将运行结果取回到本地：

#rm-r ./output # 先删除本地的 output 文件夹（如果存在）

#/bin/hdfsdfs -get output ./output # 将 HDFS 上的 output 文件夹拷贝到本机

# cat./output/*

c.停止hadoop

#./sbin/stop-dfs.sh

注意:下次启动 hadoop 时，运行 ./sbin/start-dfs.sh 就可以

8.启动YARN

(1).修改配置文件./etc/hadoop/mapred-site.xml:

<name>mapreduce.framework.name</name>

</property>

</configuration>

(2)修改配置文件yarn-site.xml：

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

</configuration>

(3)启动YARN 了（需要先执行过 ./sbin/start-dfs.sh）：

# ./sbin/start-yarn.sh $ 启动YARN

#./sbin/mr-jobhistory-daemon.shstart historyserver # 开启历史服务器

(4)jps命令查看到多了 NodeManager 和ResourceManager 两个后台进程

（5）访问Web 界面http://localhost:8088/cluster查看任务运行信息

到这里ubuntu-14.04.3上单机安装hadoop2.6就成功了。

0 0