海量数据处理(转三)---Google的高可扩展架构

来源：互联网发布：巨人网络复牌概念股编辑：程序博客网时间：2024/06/05 05:50

Google需要处理数据真正可以称得上海量，这依赖于其分布式的高扩展架构，否则，再强的小型机大型机也扛不住互联网每天产生的“信息垃圾”。Google的Jeff Dean同学为我们解密了Google的高可扩展性架构，ppt可以从这里下载。

一、底层架构

负载并行分配到多个硬件机器上
软件必须采用容错处理，不依赖具体的某一个台机器运行
大量采用刀片服务器和PC Server，低端存储和网络设备
机器追求性价比而不是盲目的高性能
基于Linux

二、分布式系统

调度系统：Scheduling System
调度系统是一个底层支撑系统，负责调度监控Cluster资源

文件存储：GFS
Master节点负责管理文件系统元数据
Chunkserver存放具体数据，以64MB为单元分布
客户端通过master查找文件
客户端直接从chunkserver获得需要的数据
目前运行超过200套GFS群集
超过5000台机器
超过5PB数据
为10000台以上客户端提供服务

数据存储：BigTable
采用多维稀疏映射图模型，每一个数据单元Cell可以存储不同时间截的数据
将表按行分隔成Tablet，分布到不同服务器上存储
底层存储架构采用GFS
Master节点处理元数据和负载均衡
Tablet服务器存储数据
锁服务器(Lock Service)控制数据访问的一致性
超过500个数据单元
最大的单元存储超过6000TB的数据，使用了超过3000台机器
最忙的单元支撑了500000次以上的操作

数据处理：MapReduce
MapRedule是Google的批量数据处理工具，分为两大功能

映射(Map)：根据输入生成(key,value)键值对
简化(Reduce)：合并存储(key,value)键值对

MapReduce用于Google的大多数产品中，包括Google Earth,News,Analytics,Search Quality,Indexing等等

目前，调度系统/GFS/BigTable/MapReduce可以在同一个群集内协同工作

三、未来的发展方向

跨越数据中心的分布式系统
更高的自动化程度