ubuntu-14.04.3上单机安装hadoop2.6

来源:互联网 发布:网络购物系统 编辑:程序博客网 时间:2024/05/16 08:48

ubuntu 14.04.3

hadoop 2.6.3


1.创建hadoop用户名

 #sudouseradd -m hadoop -s /bin/bash  

/*创建了hadoop 用户,并使用 /bin/bash 作为 shell。

# sudopasswd hadoop

#sudoadduser hadoop sudo

在登陆界面使用刚创建的 hadoop 用户进行登陆。


2.更新apt

#sudoapt-get update

可能会出现下面error:

/var/lib/apt/lists/cn.archive.ubuntu.com_ubuntu_dists_trusty_main_i18n_Translation-en

解决方法:sudo rm /var/lib/apt/lists/* -vfR删除apt-getinstall 的所有软件状态包。然后再次执行sudoapt-get update


3.安装SSH、配置SSH无密码登陆

#sudoapt-get install openssh-server

安装之后,可以使用命令登录本机:#ssh localhost ,登录成功后exit退出ssh,/home/hadoop/下会自动创建一个.ssh文件夹(隐藏的)

# cd /home/hadoop/.ssh

#ssh-keygen-t rsa              # 会有提示,一路按回车就可以

#cat ./id_rsa.pub >> ./authorized_keys  # 加入授权

此后,再用 sshlocalhost 命令,无需输入密码就可以登录了


4.Java环境
#sudoapt-get install openjdk-7-jre openjdk-7-jdk

#默认安装位置为 /usr/lib/jvm/java-7-openjdk-amd64

#dpkg -L openjdk-7-jdk| grep '/bin/javac'        #查询安装路径

接着配置 JAVA_HOME 环境变量

#vim /home/hadoop/.bashrc

在文件最前面添加:

exportJAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64


让环境变量生效并查询:

#source /home/hadoop/.bashrc

#echo $JAVA_HOME


5.安装 Hadoop 2.6.3

http://mirrors.cnnic.cn/apache/hadoop/common/ 下载hadoop-2.6.3.tar.gz 这个文件

# 解压到/usr/local中

#sudotar -zxf   /下载目录/hadoop-2.6.3.tar.gz-C /usr/local   

#cd/usr/local/

#sudo mv  ./hadoop-2.6.3/  ./hadoop            # 将文件夹hadoop-2.6.3改为hadoop

#sudo chown -R hadoop:hadoop ./hadoop        # 修改文件权限


#cd/usr/local/hadoop

#./bin/hadoopversion    #检查 Hadoop 是否可用


修改PATH环境变量。(和JAVA_HOME一样)

#vim /home/hadoop/.bashrc

在JAVA_HOME下面添加:

exportPATH=$PATH:/usr/local/hadoop/sbin:/usr/local/hadoop/bin

#source /home/hadoop/.bashrc


6.Hadoop单机配置

# cd/usr/local/hadoop

#mkdir./input

#cp./etc/hadoop/*.xml ./input   # 将配置文件作为input

#./bin/hadoopjar  ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep ./input./output 'dfs[a-z.]+'

#cat./output/*         # 查看运行结果

现实 dfsadmin 出现了1次

7.Hadoop伪分布式配置

Hadoop 在单节点上以伪分布式的方式运行,节点既作为 NameNode 也作为 DataNode,同时,读取的是HDFS 中的文件。

Hadoop 的配置文件在 /usr/local/hadoop/etc/hadoop中,伪分布式需要修改2个配置文件 core-site.xmlhdfs-site.xml


(1)修改配置文件core-site.xml

<configuration>

    <property>

        <name>hadoop.tmp.dir</name>

       <value>file:/usr/local/hadoop/tmp</value>

        <description>test</description>

    </property>

    <property>

        <name>fs.defaultFS</name>

       <value>hdfs://localhost:9000</value>

    </property>

</configuration>



(2)修改配置文件hdfs-site.xml

<configuration>

    <property>

       <name>dfs.replication</name>

        <value>1</value>

    </property>

    <property>

        <name>dfs.namenode.name.dir</name>

       <value>file:/usr/local/hadoop/tmp/dfs/name</value>

    </property>

    <property>

       <name>dfs.datanode.data.dir</name>

       <value>file:/usr/local/hadoop/tmp/dfs/data</value>

    </property>

</configuration>



(3)执行NameNode 的格式化:

#./bin/hdfsnamenode -format

“successfully formatted” 和“Exitting with status 0″ 的提示则表示成功

(4)开启 NaneNode 和 DataNode 守护进程。

#./sbin/start-dfs.sh

出现SSH连接提示,输入yes


(5)命令jps 来判断是否成功启动

若成功启动则会列出如下进程: “NameNode”、”DataNode”和 “SecondaryNameNode”


(6)访问Web 界面 http://localhost:50070查看 NameNode 和 Datanode 信息,


(7)运行Hadoop伪分布式实例

之前的单机模式下,grep的例子读取的是本地的数据,伪分布式则读取的是 HDFS 上的数据。

要使用 HDFS,

a.需要在HDFS 中创建用户目录:

#./bin/hdfsdfs -mkdir -p /user/hadoop


b.将./etc/hadoop 中的 xml 文件作为输入文件复制到分布式文件系统(/user/hadoop/input)

# ./bin/hdfsdfs -mkdir input

#./bin/hdfsdfs -put  ./etc/hadoop/*.xml input

#./bin/hdfsdfs -ls input   (查看复制结果)

执行下面命令来启动实例

# ./bin/hadoopjar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep input output'dfs[a-z.]+'

查看运行结果的命令

#./bin/hdfsdfs -cat output/*


我们也可以将运行结果取回到本地:

#rm-r ./output    # 先删除本地的 output 文件夹(如果存在)

#/bin/hdfsdfs -get output ./output     # 将 HDFS 上的 output 文件夹拷贝到本机

# cat./output/*


c.停止hadoop

#./sbin/stop-dfs.sh

注意:下次启动 hadoop 时,运行 ./sbin/start-dfs.sh 就可以

8.启动YARN

(1).修改配置文件./etc/hadoop/mapred-site.xml:

<configuration>

    <property>

       <name>mapreduce.framework.name</name>

        <value>yarn</value>

    </property>

</configuration>

(2)修改配置文件yarn-site.xml

<configuration>

    <property>

       <name>yarn.nodemanager.aux-services</name>

       <value>mapreduce_shuffle</value>

        </property>

</configuration>


(3)启动YARN 了(需要先执行过 ./sbin/start-dfs.sh):

# ./sbin/start-yarn.sh      $ 启动YARN

#./sbin/mr-jobhistory-daemon.shstart historyserver  # 开启历史服务器


(4)jps命令 查看到多了 NodeManager 和ResourceManager 两个后台进程


(5)访问Web 界面http://localhost:8088/cluster查看任务运行信息


到这里ubuntu-14.04.3上单机安装hadoop2.6就成功了。


0 0
原创粉丝点击