Cubert:LinkedIn开源的大数据计算引擎
来源:互联网 发布:access数据库开发实例 编辑:程序博客网 时间:2024/05/17 21:06
近日, Linkedin 宣布开源其正在使用的大数据计算引擎 Cubert ,该框架提供了一种新的数据模型来组织数据,并使用诸如MeshJoin 和Cube算法等算法来对组织后的数据进行计算,从而减轻了系统负荷和节省了CPU资源,最终提供给用户一个简单、高效的查询。Cubert比较适合的计 算领域包括统计计算、聚合、时间距离计算、增量计算、图形计算等。
Cubert整个架构可分为三层,第一层是数据流语言层,主要用来实现执行计划,包括 Apache Pig 、 Apache Hive 以及Cubert Script;中间层是执行计划的分布式引擎层,包括Map-Reduce、Tez和Spark以及各个算法实现;最底层是数据存储层,Cubert根据 数据模型以数据分区的形式组织和存储,且数据分区由HDFS提供的文件系统管理。Cubert 架构如下图所示:
LinkedIn把Cubert作为一个关键组件来处理数据,其中 Kafka 负责实时消息传递给Hadoop,Hadoop负责数据的存储,Cubert负责处理数据,处理后数据流向 Pinot 进行实时分析。数据流向图如下所示:
另外,LinkedIn还为Cubert创建了一门新语言Cubert Script,该语言为不同的Job明确定义了Mapper、Reducer和Combiner等操作,其目的是使得开发人员无需做任何形式的自定义编码 就能够轻松地使用Cubert。Cubert还提供了一套丰富的数据处理的操作,包括输入/输出操作(如LOAD、STORE、TEE等)、转换操作(如 FROM、GENERATE、FILTER等)、聚合操作(如GROUP BY、CUBE)、数据移动操作(如SHUFFLE、BLOCKGEN、COMBINE等)、字典操作等。接下来Cubert还将实现Tez 执行引擎、Cubert Script v2、增量计算、用于分析的窗函数等。Cubert遵循 Apache License Version 2.0 开源协议发布,读者朋友们如果想尝试或者研究Cubert的话,您可以参考Cubert 使用指导和Javadoc 。
- Cubert:LinkedIn开源的大数据计算引擎
- LinkedIn开源大数据计算引擎 Cubert,并为此创建新的语言
- LinkedIn Cubert安装指南
- LinkedIn Cubert 实践指南
- 大数据-计算引擎
- LinkedIn大数据架构
- 大数据--计算引擎分类
- Spark大数据计算引擎介绍
- 蒋步星:轻量级大数据计算引擎
- 【大数据与云计算】大数据多维分析引擎在魅族公司的实践
- Presto Facebook 开源的大数据查询引擎
- LinkedIn的使用开源项目
- LinkedIn:55人支持2700位员工,2亿用户的大数据分析
- LinkedIn:55人支持2700位员工,2亿用户的大数据分析
- 首席工程师揭秘:LinkedIn大数据后台是如何运作的?
- LinkedIn高级分析师王益:大数据时代的理想主义和现实主义
- 首席工程师揭秘:LinkedIn大数据后台是如何运作的
- 数据引擎-阿里的ODPS大规模计算引擎
- Flatten Binary Tree to Linked Li
- 数组大折腾(1)
- C语言实现字符串截取函数left、mid和right
- 单机存储引擎
- sqlserver 多表查询不同数据库服务器上的表
- Cubert:LinkedIn开源的大数据计算引擎
- 每日一道算法题:微软面试题:在排序数组中,找出给定数字出现的次数
- 黑马程序员 学习日志10 反射
- xUtils图片本地缓存使用
- MFC文档视图结构-开篇语
- C#多线程环境下调用 HttpWebRequest 并发连接限制
- F7控件增加监听实例
- 苹果OS X 10.10.1更新啦,BUT BUG
- java HelloWorld 编程风格实践