机器学习_wordcount的一些问题

来源:互联网 发布:星河战队 知乎 编辑:程序博客网 时间:2024/04/28 01:35

wordcount就是hadoop上的“hello world”,非常经典,弄清楚它可以快速的帮助我们理解hadoop一些相关概念和运行机制,

这里找了一篇好文,http://www.cnblogs.com/xia520pi/archive/2012/05/16/2504205.html

基本上把wordcount分析的非常透彻了,流程大概是这样子的

input->data->split->line(default)->mapper->combiner->reducer->output

但是还是有一个问题,就是当hadoop在split的时候,

如果将一个大的文本文件,切割成的部分中有断行怎么办?

又找一篇,作者分析了源码,http://www.cnblogs.com/dyllove98/p/3201248.html

当读到断行时,会去下一个split获取数据

关于reader的问题,还有自定义的inputFormat的方法,在这里有一篇

http://blog.sina.com.cn/s/blog_6a67b5c501010jb5.html

原创粉丝点击