Cubert：LinkedIn开源的大数据计算引擎

近日， Linkedin 宣布开源其正在使用的大数据计算引擎 Cubert ，该框架提供了一种新的数据模型来组织数据，并使用诸如MeshJoin 和Cube算法等算法来对组织后的数据进行计算，从而减轻了系统负荷和节省了CPU资源，最终提供给用户一个简单、高效的查询。Cubert比较适合的计算领域包括统计计算、聚合、时间距离计算、增量计算、图形计算等。

Cubert整个架构可分为三层，第一层是数据流语言层，主要用来实现执行计划，包括 Apache Pig 、 Apache Hive 以及Cubert Script；中间层是执行计划的分布式引擎层，包括Map-Reduce、Tez和Spark以及各个算法实现；最底层是数据存储层，Cubert根据数据模型以数据分区的形式组织和存储，且数据分区由HDFS提供的文件系统管理。Cubert 架构如下图所示：

LinkedIn把Cubert作为一个关键组件来处理数据，其中 Kafka 负责实时消息传递给Hadoop，Hadoop负责数据的存储，Cubert负责处理数据，处理后数据流向 Pinot 进行实时分析。数据流向图如下所示：

另外，LinkedIn还为Cubert创建了一门新语言Cubert Script，该语言为不同的Job明确定义了Mapper、Reducer和Combiner等操作，其目的是使得开发人员无需做任何形式的自定义编码就能够轻松地使用Cubert。Cubert还提供了一套丰富的数据处理的操作，包括输入/输出操作（如LOAD、STORE、TEE等）、转换操作（如 FROM、GENERATE、FILTER等）、聚合操作（如GROUP BY、CUBE）、数据移动操作（如SHUFFLE、BLOCKGEN、COMBINE等）、字典操作等。接下来Cubert还将实现Tez 执行引擎、Cubert Script v2、增量计算、用于分析的窗函数等。Cubert遵循 Apache License Version 2.0 开源协议发布，读者朋友们如果想尝试或者研究Cubert的话，您可以参考Cubert 使用指导和Javadoc 。

相关文章推荐：
OpenAge：【帝国时代2】游戏引擎的开源克隆版
国内开源html5游戏引擎全收录
Google Cloud Platform 加入支持 Docker 的容器引擎
本文来自：爱好Linux
本文链接：http://www.ahlinux.com/open/9320.html

时间： 2024-10-06 04:16:56

Cubert：LinkedIn开源的大数据计算引擎

Cubert：LinkedIn开源的大数据计算引擎的相关文章

上：Spark VS Flink – 下一代大数据计算引擎之争，谁主沉浮？

大数据计算引擎之Flink Flink状态管理和容错

揭秘阿里云EB级大数据计算引擎MaxCompute

大数据计算引擎之Flink Flink CEP复杂事件编程

大数据计算引擎发展的四个阶段

新一代大数据计算引擎 Flink从入门到实战

一文读懂大数据计算框架与平台

大数据计算平台Spark内核全面解读

通过 GOOGLE 大数据计算平台演进理解 APACHE FLINK 前世今生