大数据:大规模文件系统及map-reduce

来源:互联网 发布:中国装束复原小组淘宝 编辑:程序博客网 时间:2024/05/18 12:29
大数据:大规模文件系统及map-reduce 

下面是我看《大数据—互联网大规模数据挖掘与分布式处理》一书第二章的总结。

1 分布式文件系统:distributed file system

文件多副本存储,计算任务分多个,容错。

文件非常大(TB),文件极少更新

2 Map-reduce:

a 多个map任务,每个任务输入是DFS的一个或者多个文件块。

b 主控制器 从每个map任务中收集一系列键值对

c reduce任务每次作用于一个键

经典任务:统计多个文本中单词的频率。

节点失效时要有相应的容错组织

map-reduce应用:矩阵向量乘法,关系代数运算(选择,投影,并交差,自然连接,分组聚合)

map-reduce扩展:Pregel系统(递归失效解决方案)

Hadoop:HDFS与map-reduce结合实现

工作流系统:map-reduce一般化为支持任意无环函数集系统,每个函数都可实例化为任意数目的任务,每个任务在一部分数据上执行对应函数

递归工作流:递归关系函数集,系统不保证节点失效,可在计算工作过程中设立检查点

通信开销模型:map-reduce小任务开销简单,主要开销在于数据从创建到使用的开销。

多路链接,星形连接。


原创粉丝点击