Google处理1TB数据只需68秒1PB六个小时
来源:互联网 发布:php视频直播实现 编辑:程序博客网 时间:2024/04/26 20:29
如何高效处理全球信息一直是Google的狂热追求,而其自行开发的C++编程工具MapReduce就在其中扮演着关键角色。它可以多线程同时执行大规模数据集(1TB以上)的并行运算,是日常超大计算量的完美方案。
Google今天自豪地宣布,他们只需要短短68秒钟就能完成对1TB数据的排序处理。这些数据都是未压缩的文本文件,使用Google File System文件系统存储在1000台计算机上。在此之前,Google处理分布于910台计算机上的等量数据需要耗时209秒,效率只有现在的三分之一左右。
当然,信息爆炸时代的数据量远远不只是TB级别,更常见的是一千倍的PB级别。在今年1月份的时候,Google MapReduce平均每天的数据处理量是20PB,相当于美国国会图书馆今年5月份存档网络数据的240倍。
那么Google MapReduce对4000台计算机上的1PB数据进行排序处理需要多长时间呢?答案是6小时零2分钟。放眼全球,除了Google还没有谁具备这种高速处理能力。
Google还透露,这1PB数据是存储在48000个硬盘上的(当然并没有全部填满),不过考虑到测试的持续时间、涉及的硬盘数量、硬盘的使用寿命,每次进行测试都会有至少一块硬盘挂掉。为此Google文件系统会为每个文件备份三个拷贝,并分别放在三块硬盘上。
- Google处理1TB数据只需68秒1PB六个小时
- 硬盘1000TB=? 1000TB=1PB
- Google Dremel 原理 - 如何能3秒分析1PB
- Google Dremel 原理 - 如何能3秒分析1PB
- Google Dremel 原理 - 如何能3秒分析1PB
- Google Dremel 原理 - 如何能3秒分析1PB
- Google Dremel 原理 - 如何能3秒分析1PB
- Google Dremel 原理 - 如何能3秒分析1PB
- Google Dremel 原理 - 如何能 3 秒分析 1PB
- Google Dremel 原理 - 如何能3秒分析1PB
- Google Dremel 原理 - 如何能3秒分析1PB
- Google Dremel 原理 - 如何能 3 秒分析 1PB
- Google Dremel 原理 - 如何能3秒分析1PB
- Google Dremel 原理 - 如何能3秒分析1PB
- Google Dremel 原理 - 如何能3秒分析1PB
- Google Dremel 原理 - 如何能3秒分析1PB
- Google Dremel 原理 - 如何能3秒分析1PB
- Google 每天处理约 20000TB 的数据
- app_offline.htm文件的用途!
- VS2005中建立三层构架项目框架
- 在SQL中判断一个表是否存在
- Ubuntu安装后的配置
- 关于测试用例编写的一点想法
- Google处理1TB数据只需68秒1PB六个小时
- 内存屏障(memory barrier)
- 给Android emulator and Browser设上代理
- 转载:MTK手机软件系统工程和配置简介(一)
- struts1 validwhen验证
- Asp.net中的几种打印方案
- 让CPU在实模式下获得4G访问能力的最简单代码
- 关于asp.net中的Cookie的一点小知识!
- 晚间闲逛