大数据：大规模文件系统及map-reduce

来源：互联网发布：中国装束复原小组淘宝编辑：程序博客网时间：2024/05/18 12:29

大数据：大规模文件系统及map-reduce

下面是我看《大数据—互联网大规模数据挖掘与分布式处理》一书第二章的总结。

1 分布式文件系统：distributed file system

文件多副本存储，计算任务分多个，容错。

文件非常大（TB），文件极少更新

2 Map-reduce：

a 多个map任务，每个任务输入是DFS的一个或者多个文件块。

b 主控制器从每个map任务中收集一系列键值对

c reduce任务每次作用于一个键

经典任务：统计多个文本中单词的频率。

节点失效时要有相应的容错组织

map-reduce应用：矩阵向量乘法，关系代数运算（选择，投影，并交差，自然连接，分组聚合）

map-reduce扩展：Pregel系统（递归失效解决方案）

Hadoop：HDFS与map-reduce结合实现

工作流系统：map-reduce一般化为支持任意无环函数集系统，每个函数都可实例化为任意数目的任务，每个任务在一部分数据上执行对应函数

递归工作流：递归关系函数集，系统不保证节点失效，可在计算工作过程中设立检查点

通信开销模型：map-reduce小任务开销简单，主要开销在于数据从创建到使用的开销。

多路链接，星形连接。