hadoop安装，单机，伪分布

来源：互联网发布：知乎为什么安装不了编辑：程序博客网时间：2024/04/27 01:30

准备：

环境：

初学者，推荐使用ubuntu，因为官方使用，而且ubuntu社区更活跃，出现问题容易解决。所以啊，首先你需要安装一个ubuntu。什么，你习惯用windwos？那就换啊，各种虚拟机，有勇气的直接重装系统。什么？不会linux？谁出生就会啊？学习啊。什么？感觉学习linux又要花很多时间。这不是肯定的么，学什么都要花时间的，好吧？so，去学习吧。

安装软件：

ssh，官方推荐还要安装rsync，然而我没有安装也可以正常启动。

命令：

$ sudo apt-get install ssh$ sudo apt-get install rsync

当然jdk是必须的，推荐自己去官网下载。

hadoop准备：

首先你需要一个hadoop的压缩包，这貌似是废话吧。

解压后放在/opt目录，然后cd进安装目录。

编辑etc/hadoop/hadoop-env.sh

# set to the root of your Java installationexport JAVA_HOME=你的jdk路径

在/etc/profile中配一下path，jdk的环境变量也在这列配置啊。

输入

$ bin/hadoo

如果出现提示使用信息，就意味着准备工作完成了。

安装：

Standalone Operation（单机）

单机安装很简单，hadoop默认就是单机，这种情况下，是不启用hdfs的，啥？你不知道什么事hdfs？额，我这篇文章只是叫你安装，你且跟着来吧，理论的我之后会有文章说明，please继续关注。

$ mkdir input$ cp etc/hadoop/*.xml input$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar grep input output 'dfs[a-z.]+'$ cat output/*

就可以了。

Pseudo-Distributed Operation（伪分布式）

简单配置
etc/hadoop/core-site.xml:

<configuration>    <property>        <name>fs.defaultFS</name>        <value>hdfs://localhost:9000</value>    </property></configuration>

etc/hadoop/hdfs-site.xml:

<configuration>    <property>        <name>dfs.replication</name>        <value>1</value>    </property></configuration>

接下来是要让ssh免密码登录

 $ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa $ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys $ export HADOOP\_PREFIX=/usr/local/hadoop

OK，不出意外，配置已经结束了。

测试

$ bin/hdfs namenode -format$ sbin/start-dfs.sh$ bin/hdfs dfs -mkdir input$ bin/hdfs dfs -put etc/conf/* input$ bin/hadoop jar hadoop-0.20.2-examples.jar input output$ cat output/*

OK，能看到统计的信息出来，就对了。

结果：

出现单词统计信息，恭喜你成功了。

伪分布式安装已经结束。

集群安装，请看下一篇文章。

0 0

hadoop安装，单机，伪分布

准备：

安装软件：

hadoop准备：

安装：

推荐0.20.2版本，简单，容易理解，而且很多经典hadoop书籍也是根据这个版本来说的。熟了之后在学新版本也很简单。

Standalone Operation（单机）

Pseudo-Distributed Operation（伪分布式）