MapReduce教程:Hadoop

来源:互联网 发布:淘宝朋友代付退款 编辑:程序博客网 时间:2024/06/04 19:18

MapReduce是一个软件框架,可以将单个计算机作业分配给多台计算机执行。Hadoop是MapReduce框架的一个免费开源实现,也就是一个python包。它的工作流程:单个作业分成很多小份,输入数据也被切片分发到各个节点,各个节点只在本地运算,对于的代码叫mapper,这个过程称为map。每个mapper的输出通过某种组合方式(一般还会做排序),排序后的结果再被分成小份分发到各个节点进行下一步处理工作。这一部分叫reduce阶段,对于的运行代码叫reducer,它的输出结果就是整个程序的输出结果。
MapReduce优势:并行运行程序,提高效率。
Hadoop流:开源Java项目,提供大量MapReduce作业功能,分布式计算和分布式文件系统

原创粉丝点击