大数据:大规模文件系统及map-reduce
来源:互联网 发布:中国装束复原小组淘宝 编辑:程序博客网 时间:2024/05/18 12:29
大数据:大规模文件系统及map-reduce
下面是我看《大数据—互联网大规模数据挖掘与分布式处理》一书第二章的总结。
1 分布式文件系统:distributed file system
文件多副本存储,计算任务分多个,容错。
文件非常大(TB),文件极少更新
2 Map-reduce:
a 多个map任务,每个任务输入是DFS的一个或者多个文件块。
b 主控制器 从每个map任务中收集一系列键值对
c reduce任务每次作用于一个键
经典任务:统计多个文本中单词的频率。
节点失效时要有相应的容错组织
map-reduce应用:矩阵向量乘法,关系代数运算(选择,投影,并交差,自然连接,分组聚合)
map-reduce扩展:Pregel系统(递归失效解决方案)
Hadoop:HDFS与map-reduce结合实现
工作流系统:map-reduce一般化为支持任意无环函数集系统,每个函数都可实例化为任意数目的任务,每个任务在一部分数据上执行对应函数
递归工作流:递归关系函数集,系统不保证节点失效,可在计算工作过程中设立检查点
通信开销模型:map-reduce小任务开销简单,主要开销在于数据从创建到使用的开销。
多路链接,星形连接。
- 大数据:大规模文件系统及map-reduce
- 大数据之Map-reduce
- Hadoop大数据批处理 -Map/Reduce
- 利用Map Reduce 过滤大数据的解决方案
- 基于Map-Reduce的大规模分词服务搭建
- hadoop map-reduce数据过程
- python map及reduce用法
- map-reduce Java API操作及map reduce的配置
- 网络智能和大数据公开课Homework3 Map-Reduce编程
- hadoop学习(Map、Reduce、日志分析和数据挖掘、大数据处理)
- 大数据技术就在生活中: 登机牌、阅卷与 Map-Reduce(归约)
- 03-天亮大数据系列教程之分布式计算框架Map/Reduce运行流程与应用
- 数据挖掘PageRank算法(网页排名原理)及Map-Reduce实现
- Map-Reduce数据分析之二
- map-reduce阶段中的数据倾斜问题
- map reduce解决数据不平衡问题
- PageRank算法简介及Map-Reduce实现
- PageRank算法简介及Map-Reduce实现
- Android Intent组件使用
- apache的prefork和workder模式
- mysql连接时间太长解决方法
- 证书(一)原理
- 《KOF2002》“扯蛋”修改记录
- 大数据:大规模文件系统及map-reduce
- 找出数组中出现次数超过一半的数
- 快速排序与堆排序效率对比(TimeSpan计时)
- 爬虫学习笔记1--代码示例
- 大数据:数据流挖掘
- 使用BigDecimal完成小数点后的精确位数的四舍五入
- SHADOWMAP
- 我只是个程序员
- ASCIIMathML技术简介~