hadoop安装,单机,伪分布

来源:互联网 发布:知乎为什么安装不了 编辑:程序博客网 时间:2024/04/27 01:30

准备:

环境:

初学者,推荐使用ubuntu,因为官方使用,而且ubuntu社区更活跃,出现问题容易解决。所以啊,首先你需要安装一个ubuntu。什么,你习惯用windwos?那就换啊,各种虚拟机,有勇气的直接重装系统。什么?不会linux?谁出生就会啊?学习啊。什么?感觉学习linux又要花很多时间。这不是肯定的么,学什么都要花时间的,好吧?so,去学习吧。


安装软件:

ssh,官方推荐还要安装rsync,然而我没有安装也可以正常启动。
命令:
$ sudo apt-get install ssh$ sudo apt-get install rsync

当然jdk是必须的,推荐自己去官网下载。

hadoop准备:

首先你需要一个hadoop的压缩包,这貌似是废话吧。
解压后放在/opt目录,然后cd进安装目录。
编辑etc/hadoop/hadoop-env.sh
# set to the root of your Java installationexport JAVA_HOME=你的jdk路径
在/etc/profile中配一下path,jdk的环境变量也在这列配置啊。
输入
$ bin/hadoo

如果出现提示使用信息,就意味着准备工作完成了。

安装:

推荐0.20.2版本,简单,容易理解,而且很多经典hadoop书籍也是根据这个版本来说的。熟了之后在学新版本也很简单。

Standalone Operation(单机)

单机安装很简单,hadoop默认就是单机,这种情况下,是不启用hdfs的,啥?你不知道什么事hdfs?额,我这篇文章只是叫你安装,你且跟着来吧,理论的我之后会有文章说明,please继续关注。
$ mkdir input$ cp etc/hadoop/*.xml input$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar grep input output 'dfs[a-z.]+'$ cat output/*

就可以了。

Pseudo-Distributed Operation(伪分布式)

简单配置
etc/hadoop/core-site.xml:

<configuration>    <property>        <name>fs.defaultFS</name>        <value>hdfs://localhost:9000</value>    </property></configuration>


etc/hadoop/hdfs-site.xml:
<configuration>    <property>        <name>dfs.replication</name>        <value>1</value>    </property></configuration>

接下来是要让ssh免密码登录
 $ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa $ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys $ export HADOOP\_PREFIX=/usr/local/hadoop
OK,不出意外,配置已经结束了。
测试
$ bin/hdfs namenode -format$ sbin/start-dfs.sh$ bin/hdfs dfs -mkdir input$ bin/hdfs dfs -put etc/conf/* input$ bin/hadoop jar hadoop-0.20.2-examples.jar input output$ cat output/*
OK,能看到统计的信息出来,就对了。


结果:

出现单词统计信息,恭喜你成功了。
伪分布式安装已经结束。
集群安装,请看下一篇文章。
0 0
原创粉丝点击