程序博客网 > 星河战队知乎

机器学习_wordcount的一些问题

来源：互联网发布：星河战队知乎编辑：程序博客网时间：2024/04/28 01:35

wordcount就是hadoop上的“hello world”，非常经典，弄清楚它可以快速的帮助我们理解hadoop一些相关概念和运行机制，

这里找了一篇好文，http://www.cnblogs.com/xia520pi/archive/2012/05/16/2504205.html

基本上把wordcount分析的非常透彻了，流程大概是这样子的

input->data->split->line(default)->mapper->combiner->reducer->output

但是还是有一个问题，就是当hadoop在split的时候，

如果将一个大的文本文件，切割成的部分中有断行怎么办？

又找一篇，作者分析了源码，http://www.cnblogs.com/dyllove98/p/3201248.html

当读到断行时，会去下一个split获取数据

关于reader的问题，还有自定义的inputFormat的方法，在这里有一篇

http://blog.sina.com.cn/s/blog_6a67b5c501010jb5.html

星河战队知乎

星河战队知乎

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子藏方秘宝大藏秘青稞干红价格藏秘庵枇杷润喉糖藏红盐中老年牙膏价格藏红花泡水喝功效藏红花价格多少钱一克伊朗藏红花功效藏缘青稞酒价格表藏羚羊藏羚羊图片藏羚羊跪拜藏羚羊的毛藏羚王藏羚羊皮藏羚羊的跪拜藏羚羊吃什么纪录片藏羚羊藏羚羊跪拜六年级阅读题答案藏羚羊保护动物跪拜的藏羚羊藏羚羊的跪拜原文藏羚羊生活在哪里藏羚羊的传说藏羚羊的介绍藏羚羊角手串价格藏羚羊跪拜练习题藏羚羊绒披肩藏羚羊人工养殖藏羚羊的故事藏舞藏舞基本动作分解藏舞头饰藏舞服装秦腔藏舟选段藏茶藏茶价格雅安藏茶价格藏茶是什么茶藏红花茶有什么功效藏茶多少钱一斤喝藏红花茶的好处