0915_MapReduce初窥——Word Count程序

来源：互联网发布：2015软件外包排行编辑：程序博客网时间：2024/06/15 14:38

今天在公司待了一天，然后被公司神慢的DNS解析吓怕，下了一天的数据库安装包，然后并没有什么鸟用，突出一个烦。
想想技术日志不能断啊，然后之前关于Hadoop正好也没有做什么整理，那就权当整理思路，把关于Hadoop的一些自己的理解做一个整理。
首先，Hadoop是Apache的一个开源项目Nutch，后来结合了Google的MapReduce，HDFS+MapReduce加在一起，基本上就构成了整个Hadoop的架构了。
这些当然都能百度到，没什么好做整理的。
接下来安装的部分，我做到SSH，又卡壳了，之前学校实验也是，因为没注意流程，然后Hadoop的SSH要求无密码登陆，疏忽了，接下来就在无尽地找删ssh keygen的地方，之前也犯过这个错误。
这个时候就很后悔，为什么不做日志！
突出一个技术日志不能停啊！
Hadoop项目中最神级的一个Hello World程序叫做Word Count，面试题目或者电话面试真的超级喜欢找这种类似的题目来考，什么意思？
举个栗子！
常见题：在一个文件中找出所有出现的单词及其出现的次数，输出到一个文件中。
Hadoop解决方案：分成多个文件，一个文件一个map程序，在map内进行单词的切割，每切割一个进行key值value递增加一，为了减小节点间数据传输，在传入reduce之前进行map内的combine操作，也就是对已有数据进行相同key值的value值累加，并用原key值作为现在的key值；传入reduce后，在reduce部分进行map数据的最后累加操作。
写不动了，就先这样吧，技术文档还是适合码代码说明问题。朕乏了！嗯，先歇着吧！

0 0