Hadoop伪分布式运行及YARN的初始化

来源：互联网发布：打印机没有usb端口选择编辑：程序博客网时间：2024/05/27 20:52

上篇文章Hadoop基本环境搭建http://blog.csdn.net/jaky0306/article/details/72676904 的末尾，我们配置了Hadoop的伪分布式模式

本次我们来运行下伪分布式模式的例子。

伪分布式模式读取的是HDFS上的数据。其实它跟单机模式的操作很相似的，只不过，单机模式操作的是本地文件，伪分布模式操作的是HDFS上的数据

Hadoop 伪分布式例子运行

首先，我们在HDFS中创建一个用户目录，目前我们是hadoop用户，因此

$ ./bin/hdfs dfs -mkdir -p /user/hadoop

接着我们把 ./etc/hadoop/ 路径下的所有xml文件作为输入文件，上传到HDFS中，我们在HDFS中创建一个input文件夹

$ ./bin/hdfs dfs -mkdir input

然后复制文件（复制文件用的是 -put 命令，下载是 -get）

$ ./bin/hdfs dfs -put ./etc/hadoop/*.xml input

查看文件列表

$ ./bin/hdfs dfs -ls input

继续

我们像单机模式一样，在伪分布式模式中计算一下input文件夹所有文件的内容中，符合正则表达式ab[a-z.]+的单词多出现的次数，最后把结果保存到output文件夹中

$ ./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep input output 'ab[a-z.]+'

查看结果

$ ./bin/hdfs dfs -cat output/*

PS: 运行过程中，如果发现报 文件夹已存在 的错误，就把目标文件夹删了再重新运行命令

这就是在伪分布式模式下运行Hadoop例子，是不是很简单。最大的差别在于，HDFS 的操作，需要一些特定的指令，如 -put -get -ls 等，这些需要记一下

继续

YARN的初始化

旧版本教程上面，是不是有什么JobTracker和TaskTracker，为什么之前的配置没有看到呢？

原因就是新版的Hadoop使用了新的MapReduce框架： MapReduce V2，也就是YARN. 让YRAN来负责资源管理和任务调度

首先，我们需要修改配置文件mapred-site.xml。新版本/etc/hadoop/ 路径下是mapred-site.xml.template 因此，我们需要重命名一下

$ mv ./etc/hadoop/mapred-site.xml.template ./etc/hadoop/mapred-site.xml

然后进行配置

<configuration>

<property>

<name>mapreduce.framework.name</name>

<value>yarn</value>

</property>

</configuration>

$ sudo gedit ./etc/hadoop/mapred-site.xml

接着，我们修改yarn-site.xml

<configuration>

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

</configuration>

$ sudo gedit ./etc/hadoop/yarn-site.xml

配置完毕，准备启动YARN，启动之前，我们需要先吧hadoop启动

$ ./sbin/start-yarn.sh

访问localhost:8088

大概的配置就是这样了，是不是很简单

完毕

阅读全文

1 0