hadoop伪分布式操作方法

来源:互联网 发布:拳师七号淘宝店 编辑:程序博客网 时间:2024/06/05 22:52

系统环境

centOS  :6.3

所需软件

1、jdk 

JKD下载地址:http://download.oracle.com/otn/java/jdk/7u3-b04/jdk-7u3-linux-x64.tar.gz 

(1) jdk安装


tar -zxvf jdk-7u3-linux-x64.tar.gz

mv /upload/jdk1.7.0_03 /usr/local

 #解压,并且将解压后文件移动到需要存放的位置

(2) jdk环境变量配置

打开文件/etc/profile在最后面加入以下内容

export JAVA_HOME=/usr/local/java/jdk1.7.0_30

export PATH=$PATH:$JAVA_HOME/bin

export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:

export JAVA_HOME JAVA_BIN PATH CLASSPATH

其中/usr/local/java/jdk1.6.0_30 路径为自己服务器上面jdk的安装路径

(3) 重启服务器、查看是否安装成功

重启命令:reboot

查看是否安装成功:java -version

如果输出:java version “1.7.0_03″ 说明jdk已经安装成功

2 、ssh

ssh 必须安装并且保证sshd一直运行,以便用Hadoop 脚本管理远端Hadoop守护进程。

安装SSH
yum install ssh
启动SSH
service sshd start

伪分布式模式的操作方法

1、解压所下载的Hadoop发行版。我采用hadoop-0.16.4

2、编辑 conf/hadoop-env.sh文件,至少需要将JAVA_HOME设置为Java安装根路径。

尝试如下命令:

$ bin/hadoop

将会显示hadoop 脚本的使用文档。

Hadoop可以在单节点上以所谓的伪分布式模式运行,此时每一个Hadoop守护进程都作为一个独立的Java进程运

3、配置

使用如下的 conf/hadoop-site.xml:

<configuration>  <property>    <name>fs.default.name</name>    <value>localhost:9000</value>  </property>  <property>    <name>mapred.job.tracker</name>    <value>localhost:9001</value>  </property>  <property>    <name>dfs.replication</name>    <value>1</value>  </property></configuration>

4、免密码ssh设置

现在确认能否不输入口令就用ssh登录localhost:

$ ssh localhost

$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa

$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

如果不输入口令就无法用ssh登陆localhost,执行下面的命令:

5、执行

格式化一个新的分布式文件系统:

$ bin/hadoop namenode -format

启动Hadoop守护进程:

$ bin/start-all.sh

Hadoop守护进程的日志写入到 ${HADOOP_LOG_DIR} 目录 (默认是 ${HADOOP_HOME}/logs).

浏览NameNode和JobTracker的网络接口,它们的地址默认为:

    • NameNode - http://localhost:50070/
    • JobTracker - http://localhost:50030/

将输入文件拷贝到分布式文件系统:

$ bin/hadoop fs -put conf input

运行发行版提供的示例程序:

$ bin/hadoop jar hadoop-*-examples.jar grep input output 'dfs[a-z.]+'

查看输出文件:

将输出文件从分布式文件系统拷贝到本地文件系统查看:

$ bin/hadoop fs -get output output

$ cat output/*

或者

在分布式文件系统上查看输出文件:

$ bin/hadoop fs -cat output/*

完成全部操作后,停止守护进程:

$ bin/stop-all.sh

参考文献:http://hadoop.apache.org/docs/r0.19.1/cn/quickstart.html

0 0