阿里巴巴下一代数据集成技术

来源:互联网 发布:淘宝购买steam游戏 编辑:程序博客网 时间:2024/05/21 21:39

点击查看全文


数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。在企业数据集成领域,已经有了很多成熟的框架可以利用。目前通常采用联邦式、基于中间件模型和数据仓库等方法来构造集成的系统,这些技术在不同的着重点和应用上解决数据共享和为企业提供决策支持。

986c61c7f38883d3a0de1b05d5477f2c89dadbd1

视频分享地址:https://v.qq.com/iframe/player.html?vid=o0547tqlw0z&width=670&height=376.875&auto=0


数据工厂

85ca00e556454d2c55ff8eafca2008b5edab5ff4


数据工厂解决了云上从数据的采集整合,到数据加工、分析与管理,再到数据应用和消费的整个流程。


上图中红色标注部分是数据集成的位置。数据集成既是把数据采到数据平台部分的数据通道,也是数据出去的通道。


中间就是所有数据的清洗转换、调度、OLAP分析以及数据挖掘的常用工具和模块。


最底层是元数据管理,是一个至关重要的模块。


传统数据处理有时候会叫做数仓,数仓是偏离线的。现在普遍叫数据平台,数据平台更强调它和在线系统的融合打通。


cf9e339e5ab01eed38c95efc55a560644866741c


如上图所示,极简罗汉图构建的体系就是数据工厂。大家要自己搭建一个大数据开发平台的话,这些是基础模块,也是必要的组件。


最上面是调度,两侧有开发测试的环境,和整个大数据开发的运维管理。中间的“神经系统”是元数据,没有元数据所有东西都是无效的。再往下是整个大数据的计算引擎,阿里巴巴早就已经用完全自研的MaxCompute以及ADS等一系列的计算引擎替换了开源部分。最底下是数据集成,决定了数据怎么进来怎么出去。


数据集成

79393555afce5a941d73c30c933ff459f0520de0


上图所示是数据集成的使用过程。从选择数据源、选择目标,到字段映射,然后进行通道流控的配置,最后就是看日志。


625c0593d2e9938264051b797dc295f17f0d84d8


现在的数据集成已经超出了传统数据集成的范畴,也就是说传统数据集成的“屁股”是坐在数据仓库上的,面向的是业务数据库,对于多媒体文件或整个任意文件的支持还是比较少。现在非结构化数据的比重越来越大,尤其在阿里云上看到这种趋势非常明显。所以我们做了任意二进制文件的支持和视频文件的支持。


跨公网的数据传输是在云时代下一个非常重要的能力。当数据不在同城机房的时候,要想做一个简单的数据集成都需要跨公网把数据传输到统一的数据仓库中。


数据集成agent-datax

DataX是阿里巴巴集团内部被广泛使用的离线数据同步工具/平台,实现包括MySQL、Oracle、HDFS、Hive、OceanBase、HBase、OTS、ODPS等各种异构数据源之间高效的数据同步功能。


DataX是一个插件式架构,可以插拔,支持读写插件。我们会坚持开源,现在已经有了一定的影响力。它的性能很好,功能和稳定性远超sqoop。最近使用的客户案例有微博、金立、斗鱼直播,效果突出。




点击查看全文


原创粉丝点击