0915_MapReduce初窥——Word Count程序

来源:互联网 发布:2015软件外包排行 编辑:程序博客网 时间:2024/06/15 14:38
今天在公司待了一天,然后被公司神慢的DNS解析吓怕,下了一天的数据库安装包,然后并没有什么鸟用,突出一个烦。
想想技术日志不能断啊,然后之前关于Hadoop正好也没有做什么整理,那就权当整理思路,把关于Hadoop的一些自己的理解做一个整理。
首先,Hadoop是Apache的一个开源项目Nutch,后来结合了Google的MapReduce,HDFS+MapReduce加在一起,基本上就构成了整个Hadoop的架构了。
这些当然都能百度到,没什么好做整理的。
接下来安装的部分,我做到SSH,又卡壳了,之前学校实验也是,因为没注意流程,然后Hadoop的SSH要求无密码登陆,疏忽了,接下来就在无尽地找删ssh keygen的地方,之前也犯过这个错误。
这个时候就很后悔,为什么不做日志!
突出一个技术日志不能停啊!
Hadoop项目中最神级的一个Hello World程序叫做Word Count,面试题目或者电话面试真的超级喜欢找这种类似的题目来考,什么意思?
举个栗子!
常见题:在一个文件中找出所有出现的单词及其出现的次数,输出到一个文件中。
Hadoop解决方案:分成多个文件,一个文件一个map程序,在map内进行单词的切割,每切割一个进行key值value递增加一,为了减小节点间数据传输,在传入reduce之前进行map内的combine操作,也就是对已有数据进行相同key值的value值累加,并用原key值作为现在的key值;传入reduce后,在reduce部分进行map数据的最后累加操作。
写不动了,就先这样吧,技术文档还是适合码代码说明问题。朕乏了!嗯,先歇着吧!
0 0
原创粉丝点击