Hadoop平台的map-reduce
来源:互联网 发布:javascript知识点总结 编辑:程序博客网 时间:2024/05/21 07:54
数据处理
(1)raw data——>data cleaning——>feature
考虑:内存, 完成时间
例子word count
(2)利用map-reduce思想完成大数据操作和处理
单台服务器内存不足,搭建服务器集群
map-reduce集群:
(1)在多节点上冗余存储数据,以空间换稳定
(2)将计算(op/script)移向数据端(HDFS),以减少大数据(data)移动
(3)简单程序模型,隐藏复杂中间过程
分布式文件存储系统(类似本地硬盘):
GFS(Google),HDFS(Hadoop):服务器块存储数据块,服务器块也要用于计算
服务器块:
文件被分作16-64MB大小的连续块;
每个文件块会被重复地存储2到3次;
尽量保证重复的数据块在不同的机架上
主节点(管理节点):
Hadoop的HDFS里叫做Name节点;
存储元数据记录文件存储结构和地址;
也可以重复
map-reduce核心处理步骤
(1)map:分组,产生<k,v> 对
map按行读入内存写入硬盘,分桶(从标准输入读数据,数据写入标准输出)
(2)shuffle:系统帮自动做的,group bu key,排序
(3)reduce:聚合统计,对<k,v> 聚合
reduce从上到下统计,输出结果没有顺序
阅读全文
0 0
- Hadoop平台的map-reduce
- 利用Hadoop平台的map-reduce进行词频统计
- Hadoop :Map/Reduce的理解
- Hadoop Map/Reduce的工作流
- Hadoop的Map-Shuffle-Reduce
- 基于Hadoop的Map reduce编程(一)
- 【hadoop】map reduce的嵌套调用
- Hadoop的Map-Reduce例子 WordCount
- Hadoop的HDFS和Map/Reduce
- 坑爹的hadoop map reduce api
- hadoop的HDFS和map-reduce
- hadoop map与reduce的问题
- hadoop map 与reduce 的流程
- hadoop下的Map-Reduce最高温度例子
- Hadoop map和reduce的个数
- [置顶] Hadoop Map-Reduce的过程解析
- Hadoop Map/Reduce教程
- Hadoop Map/Reduce教程
- 计算数组长度
- 数位dp
- JS-Jquery 控制表单提交
- springboot实现页面跳转
- css布局中的position各种属性
- Hadoop平台的map-reduce
- jquery上传文件显示进度条,亲测
- 1.A+B问题 给出两个整数A和B, 求他们的和, 但不能使用 + 等数学运算符。
- 7-4 排座位
- 前端学习第七弹:固定位置的导航
- POJ 3140 Contestants Division——树形dp
- vue 非父子组件通信
- Tesseract-OCR识别中文与训练字库实例
- UIScrollView代理方法之一