理论篇~第一章 大数据数据仓库架构

来源:互联网 发布:车主名单软件 编辑:程序博客网 时间:2024/05/17 02:21

    接下来,我们以阿里巴巴大数据架构图来介绍。


    大数据系统体系分为数据采集层、数据计算层、数据服务层和数据应用层。简单介绍一下这四层的具体作用和使用到的技术(讲述的内容包含但不限于阿里巴巴的知识):

    1 数据采集层

         数据采集的对象主要是传统数据库数据和日志数据。一般公司采用sqoop开源工具采集传统数据库数据,大公司会开发专门工具。例如,阿里的DataX和同步中心。

日志数据采集来源分为Web端和APP端。

        在采集技术基础上,阿里巴巴用面向各个场景的埋点规范,来满足通用浏览、点击、特殊交互、APP事件、H5及APP里的H5和Native日志数据打通等多种业务场景。


    2 数据计算层

         数据只有被整合和计算,才能被用于洞察商业规律,挖掘潜在信息,从而实现大数据价值,达到赋予的商业和创造价值的目的。

         在构建全域数据体系,应遵循统一、规范、可共享等特点,避免数据的冗余和重复建设,规避数据烟囱和不一致性,充分发挥大数据海量、多样性方面的优势。

         从数据计算频率角度,数据仓库可分离线数据仓库和实时数据仓库。离线数据仓库主要是指传统的数据仓库概念,数据计算频率主要以天(包含小时、周和月)为单位;如T-1,则是每天凌晨跑上一天的数据。但是随着业务的发展特别是交易过程的缩短,用户对数据产出的实时性要求逐渐提高,实时数据仓库的概念也孕育而生。

         数据加工链路遵循业界的分层理念,包括操作数据层(Operational Data Store,ODS)、明细数据层(Data Warehouse Detail,DWD)、汇总数据层(Data Warehouse Summary,DWS)和应用数据层(Application Data Store,ADS)。通过数据仓库不同层次之间的加工过程实现从数据资产向信息资产的转化,并且对整个过程进行有效的元数据管理及数据质量处理。

         在大数据系统中,元数据模型整合及应用是一个重要的组成部分,主要包含数据源元数据、数据仓库元数据、数据链路元数据、工具类元数据、数据质量类元数据等。元数据应用主要面向数据发现、数据管理等,如用于存储、计算和成本管理。


    3 数据服务层

        当数据已被整合和计算好之后,需要提供给产品和应用进行数据消费。为了有更好的性能和体验,阿里巴巴构建了自己的数据服务层,通过接口服务化方式对外提供数据服务。针对不同的需求,数据服务层的数据来源架构在多种数据库之上,如MYSQL和HBase等。

        以数据仓库整合计算好的数据作为数据源,对外通过接口的方式提供数据服务,主要提供简单数据查询服务、复杂数据查询(用户识别、用户画像等)和实时数据推送服务。


    4 数据应用层

        数据准备好后,通过合适的应用提供给用户,让数据最大化地发挥价值。对数据的应用有很多方面,如搜索、推荐、广告、金融、信用、保险等。应用产品也有很多,如实时数据监控、宏观决策分析支撑平台、对象分析工具、行业数据分析门户等。

  

原创粉丝点击