Hadoop中的Streaming对linux的操作

来源:互联网 发布:c语言库函数是什么 编辑:程序博客网 时间:2024/06/06 09:47

如何使用Hadoop提供的Streaming,我们可以通过Linux中的命令来实验,比如查看一个文件中的数字统计可以使用下面的命令:

cat sample.txt | wc

其中sample.txt表示需要统计的文件,|表示管道,wc统计数据的命令

现在使用Streaming形式统计Hadoop中的sample.txt的数字。

1.把sample.txt上传到hadoop中,:hadoop dfs -put sample.txt /user/long1657/input

2.通过下面命令来运行命令:

hadoop jar hadoop/hadoop-0.20.2/contrib/streaming/hadoop-0.20.2-streaming.jar -input /user/long1657/input/sample.txt -output /user/long1657/outStream -mapper cat -reducer wc

通过查看可以hadoop中生成的结果可以查看具体的信息。