在linux上一行代码不用写实现自动采集+hadoop分词

来源:互联网 发布:端口被屏蔽怎么办 编辑:程序博客网 时间:2024/06/06 02:26

在linux上一行代码不用写实现自动采集+hadoop分词

将下面的shell脚本保存成到xxx.sh,然后执行即可大笑

cd /opt/hadoop

mkdir spider
wget -O spider/test.html "http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithQJM.html"  
hadoop fs -mkdir /spider
hadoop fs -put spider/test.html /spider

hadoop jar share/hadoop/mapreduce/wordcount.jar wordcount.wordcount /spider/test.html /fenci2


执行结果如下:


0 0
原创粉丝点击