hadoop实现wordcount的三种方法
来源:互联网 发布:热血江湖自动登录源码 编辑:程序博客网 时间:2024/06/08 10:26
很多小伙伴在搭建完hadoop集群后,还不太会在上面跑测试程序,作为大数据入门学习的Hello world程序,我总结了三种方法。
第一种:用hadoop上自带的jar包(hadoop-mapreduce-examples-2.7.0.jar)实现
1、如何找到hadoop自带的jar包呢?
路径:/usr/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.0.jar(我的hadoop是安装在linux的usr目录下的)
2、如何运行,在linux上运行格式是怎样的?
四步:
(1)首先自己在linux本地新建一个txt文件 (vi /tmp/wordcount.txt)
(2)在分布式文件系统上新建一个存放wordcount.txt的文件夹(hdfs dfs -mkdir hdfs://hadoop-senior:9000/tmp/wordcount_input)
(3)将linux本地wordcount.txt文件上传到分布式文件系统wordcount_input中
(4)用上面我们找到的自带jar包运行wordcount程序
hadoop jar /usr/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.0.jar wordcount hdfs://hadoop-senior:9000/tmp/wordcount_input/
hdfs://hadoop-senior:9000/tmp/wordcount2_output/ 注意:wordcount_input是我们在dfs上自己建立的用于输入文件夹,而wordcount_out是系统生成的用于输出的文件夹(提前新建会报错)
此时会在wordcount_output中生成两个文件,
查看最终结果:hdfs dfs -cat /tmp/wordcount_output/part*
第二种:不用自带的包,我们自己导出JAR包,在集群中运行(3个java源程序,我这里就不提供了)
(1)在eclipse的项目管理器列表中右击WordMain.java,选择export,选择导出为“JAR file”格式
(2)单击“Next>”按钮,输入JAR包名称,导出jar包后,自己通过WinScp放到linux的一个目录下(我这里是放在staging下)
(3)新建输入目录
[hadoop@master~]$ hdfs dfs -mkdir -p /tmp/wordcount_in
(4)上传文件
[hadoop@master~]$ hdfs dfs -put /tmp/WordCount.txt wordcount_in/
(5)运行WordCount,其中的“wordcount_in/”是输入目录,“wordcount_out/”是输出目录(注意在程序运行之前wordcount_out文件夹是不存在)。
格式:hadoop jar [jar文件位置] [jar主类] [HDFS输入位置] [HDFS输出位置]
[hadoop@master ~]$hadoop jar /staging/wordcount.jar mapreduce.WordMain /tmp/wordcount_in /tmp /wordcount_out/
结果上面一样的,这里就不截图了。
第三种:在IDE中运行,eclipse怎么连接集群请参考这篇博文:http://blog.csdn.net/dopamy_busymonkey/article/details/50672564
(1)Eclipse HDFS文件系统中,在/user/目录下新建一个文件夹(文件夹命名为Window Eclipes连接Hadoop集群的用户名)
(2)在用户名文件夹下,新建Wordcount_in文件夹,上传WordCount.txt文件
(3)右键->Run As->RunConfigurations->Arguments(在左边的导航列表点击Java Application选择WordMain Java程序)。
输入目录:hdfs://192.168.85.81:9000/user/15804/Wordcount_in
输出目录:hdfs://192.168.85.81:9000/user/15804/Wordcount_out
(4)点击运行在输出目录会生成两个文件,part-r-00000文件保存的是运行结果
- hadoop实现wordcount的三种方法
- Hadoop的WordCount实现
- 三种方法实现Spark计算WordCount
- 关于hadoop wordcount的几种实现
- Hadoop中WordCount例子的实现
- hadoop的第一个程序wordcount实现
- Hadoop-MapReduce之WordCount的实现
- Eclipse实现Hadoop WordCount
- hadoop-改进的wordcount
- hadoop的WordCount例子
- Hadoop的Wordcount
- Hadoop的WordCount案例
- hadoop学习1 实现WordCount
- 5行代码怎么实现Hadoop的WordCount?
- python基于Hadoop Streaming实现简单的WordCount
- 伪分布式Hadoop系统上的wordCount实现命令
- (三)配置hadoop-----------运行wordcount例子
- Hadoop笔记之三:WordCount实验续
- 模块API之try_module_get
- asdsadas
- 接口测试学习总结
- Python之scrapy使用教程
- PEID加密算法识别插件Krypto ANALyzer
- hadoop实现wordcount的三种方法
- 状态保持
- 吴恩达【深度学习工程师】学习笔记(六)
- Bootstrap学习笔记 10
- 我理解的java流基础篇(四)
- Linux操作系统 第四次实验-Linux系统管理
- 定时器触发时间设置学习
- SpringMVC 4.1 新特性(三)集成Bean Validation 1.1(JSR-349)
- HTML特殊符号对照表、常用的字符实体