Hadoop入门实例——WordCount统计单词
来源:互联网 发布:lua web 知乎' 编辑:程序博客网 时间:2024/06/05 09:33
首先要说明的是运行Hadoop需要jdk1.6或以上版本,如果你还没有搭建好Hadoop集群,请参考我的另一篇文章:
Linux环境搭建Hadoop伪分布模式
马上进入正题。
1.启动Hadoop集群,使用jps查看所有结点是否启动成功;
2.进入hadoop的bin目录,查看hadoop中的例程
运行./hadoop jar /opt/hadoop/hadoop-examples-*-.jar,红框中的jar包根据你的hadoop版本而定;
3.试图运行wordcount,./hadoop jar /opt/hadoop/hadoop-examples-1.0.4.jar wordcount
显示出参数列表为:wordcount <in> <out>,所以我们要指定分布式文件的输入、输出目录;
4.创建输入目录
在bin目录下运行:./hadoop dfs -mkdir /home/hadoop/input (本地的mkdir可能不可用)
5.下载几篇英文文章(txt最好),放入刚刚创建的输入目录
我使用的是window下的虚拟机,可以用xftp将本地文件上传到Linux服务器,很方便。。
./hadoop dfs -put input/* /home/hadoop/input
(注:第一个目录是你存放文章的本地目录,*通配符,表示该目录下的所有文档,
第二个目录是你的分布式文件系统的输入目录)
查看测试文件:./hadoop dfs -ls /home/hadoop/input
6.运行,每次运行前请先删除输出目录,因为他是自动生成的;
或者每次都创建一个新的目录,否则会运行失败。
./hadoop jar ../hadoop-examples-1.0.4.jar wordcount /home/hadoop/input /home/hadoop/output
7.查看单词统计结果,默认生成的文件part-r-00000
./hadoop dfs -cat /home/hadoop/output/part-r-00000
我选择的是一篇经济学论文,这个就是部分结果了。
开心!!!
- Hadoop入门实例——WordCount统计单词
- Hadoop编程入门,统计单词出现数目wordcount
- Hadoop Demo 1 ——WordCount 统计文章中单词的个数
- hadoop的统计单词程序WordCount
- hadoop入门——wordcount
- Mapreduce实例---统计单词个数(wordcount)
- hadoop实例分析之WordCount单词统计分析
- hadoop实例分析之WordCount单词统计分析
- Hadoop实例-----统计单词个数
- hadoop入门(六)JavaAPI+Mapreduce实例wordCount单词计数详解
- 在Linux系统设置共享文件夹、Hadoop单机/伪分布部署,运行Hadoop Wordcount单词统计实例
- Hadoop入门—WordCount代码分析
- Hadoop入门—Linux下伪分布式计算的安装与wordcount的实例展示
- hadoop入门(WordCount实例详解)
- WordCount——MapReduce 实例入门
- Hadoop—测试hadoop自带wordcount 实例
- storm程序-单词统计wordcount
- hadoop实例 wordcount——StringTokenizer:字符串分隔解析类型
- Android FragmentTabHost 使用方法详解
- 第一章 欢迎来到Python世界!
- yii框架的rules
- js常用函数总结
- 0904 Java中的多态的成员访问特点、好处、坏处
- Hadoop入门实例——WordCount统计单词
- JS异步编程(promise、deferred对象)
- node---express框架搭建
- Linux--shell of "tr" command
- Java IO详解
- Android 开发实战经验总结(架构人生)
- JQuery jsonp调用
- 开发运营必看,跳出雷区必须知道的微信小程序平台运营规范
- SQL 数据库 学习 026 查询-09 聚合函数 --- 多行记录返回至一个值,通常用于统计分组的信息