Hadoop伪分布式运行及YARN的初始化

来源:互联网 发布:打印机没有usb端口选择 编辑:程序博客网 时间:2024/05/27 20:52
上篇文章Hadoop基本环境搭建http://blog.csdn.net/jaky0306/article/details/72676904 的末尾,我们配置了Hadoop的伪分布式模式
本次我们来运行下伪分布式模式的例子。

伪分布式模式读取的是HDFS上的数据。其实它跟单机模式的操作很相似的,只不过,单机模式操作的是本地文件,伪分布模式操作的是HDFS上的数据

Hadoop 伪分布式例子运行

首先,我们在HDFS中创建一个用户目录,目前我们是hadoop用户,因此
$ ./bin/hdfs dfs -mkdir -p /user/hadoop

接着我们把 ./etc/hadoop/ 路径下的所有xml文件作为输入文件,上传到HDFS中,我们在HDFS中创建一个input文件夹
$ ./bin/hdfs dfs -mkdir input
然后复制文件(复制文件用的是 -put 命令,下载是 -get)
$ ./bin/hdfs dfs -put ./etc/hadoop/*.xml input
查看文件列表
$ ./bin/hdfs dfs -ls input


继续
我们像单机模式一样,在伪分布式模式中计算一下input文件夹所有文件的内容中,符合正则表达式ab[a-z.]+的单词多出现的次数,最后把结果保存到output文件夹中
$ ./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep input output 'ab[a-z.]+'
查看结果
$ ./bin/hdfs dfs -cat output/*


PS: 运行过程中,如果发现报 文件夹已存在 的错误,就把目标文件夹删了再重新运行命令

这就是在伪分布式模式下运行Hadoop例子,是不是很简单。最大的差别在于,HDFS 的操作,需要一些特定的指令,如 -put -get -ls 等,这些需要记一下

继续
YARN的初始化
旧版本教程上面,是不是有什么JobTracker和TaskTracker,为什么之前的配置没有看到呢?
原因就是新版的Hadoop使用了新的MapReduce框架: MapReduce V2,也就是YARN. 让YRAN来负责资源管理和任务调度

首先,我们需要修改配置文件mapred-site.xml。新版本/etc/hadoop/ 路径下是mapred-site.xml.template 因此,我们需要重命名一下
$ mv ./etc/hadoop/mapred-site.xml.template ./etc/hadoop/mapred-site.xml
然后进行配置
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>

$ sudo gedit ./etc/hadoop/mapred-site.xml


接着,我们修改yarn-site.xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>

$ sudo gedit ./etc/hadoop/yarn-site.xml


配置完毕,准备启动YARN,启动之前,我们需要先吧hadoop启动
$ ./sbin/start-yarn.sh


访问localhost:8088


大概的配置就是这样了,是不是很简单
完毕
阅读全文
1 0
原创粉丝点击