DataPipeline丨新型企业数据融合平台的探索与实践

一、关于数据融合和企业数据融合平台

数据融合是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。

企业数据融合平台,通常的表现形态为运行着大量数据同步和转换任务的分布式系统。其源端一般为各类偏实时的业务数据存储系统,目的端为各类数据仓库/对象存储。

二、企业数据融合平台的典型架构

下图为数据融合平台的典型架构,源端是不同的数据存储系统,另一端是各种类型的数据仓库,关系型数据库或者文件存储等。中间为数据融合平台的简单架构,组件Source connectors负责做数据的采集。

将数据采集之后,会将其做成格式化数据放到Transport Channel,Transport Channel一般会用Source队列或其它流式数据框架,负责做中间的缓存,包括分布式的支持,数据的分发, sink connectors去负责把数据分别写入不同的数据目的地。

三、企业数据融合需要解决的关键问题

  1. 数据异构问题

面临繁琐的数据源和目的地适配以及异构数据源的转换问题。

  1. 随时变化的数据结构

数据源结构会随时发生变化,造成下游写入失败。当数据结构发生改变时,需要保证数据像正常一样,不会出现任何问题。

  1. 数据平台的扩展性

需要根据业务驱动做水平拓展,甚至需应对一对多的分发要求,另外也需要处理和解决多任务并行的QoS。

  1. 数据一致性

在任何情况下都需要保证数据是一致的,这也是在生产过程中需要保证的问题。

四、消息队列在数据融合平台的作用

首先是解耦,消息队列可以将源端的数据采集跟移动端的数据完全进行解耦。如果数据写入端出现任何问题,不会影响数据采集的稳定型。

Schema Mapping帮助我们做到了数据源和目的地结构的解耦,减少开发新的connector的复杂度。

同时消息队列提供了水平拓展和高可用的性质,当需要接入更多数据且系统不能支撑时,我们可以轻易的做水平拓展,支持更大的数据量。

另外,对消息队列和数据同步一致性的问题做了保证,至少能保证数据同步的顺序性。

五、DataPipeline现有架构

下图为DataPipeline基于Kafka connect消息队列所做的架构,Kafka本身是一个非常成熟的消息队列,Kafka connect是其下面的一个子项目,相当于给kafka consumer 和 kafka producer提供了一个封装,它实现了分布式和高可用,同时帮助我们负责和kakfa进行交互。

六、Kafka connect-offset管理

消费者会有一个offset的概念,用来记录消费进度,Kafka connect会自动化地做消息offset的管理,它可以等我们消费完一些数据之后,自动提交消费进度,然后在Kafka中做存储。

在读取数据的时候, connector会将数据从数据源抽取出来写到data topic,用来做数据中间的缓存。同时connector在同步过程中也会周期性的将offset提交到offset Topic,相当于每读取一段时间,存一个存档点。

周期性的offset提交如果失败的话,会导致数据任务重启恢复时无法完全恢复到最后写入的offset点。这种情况就会导致数据的重复读取和重复写入,会出现数据一致性的问题,以下解决方案可以从一定程度上避免这个问题:

  1. 依赖目的地的特性进行去重达到数据的最终一致性,例如: RDBMS用主键进行去重。
  2. 依赖消息队列的事务信息避免源端重复,保证数据写入和offset写入的事务性提交。
  3. 目的端在写入后记录单独的offset到redis缓存,并在任务恢复之后根据offset进行过滤,避免重复写入。减少offset rewind带来的数据重复,但是由于写入数据和记录offset并不是事务操作,所以也不保证exactly once delivery。
  4. 依赖目的地的事务性,在目的地建立临时空间记录写入的offset,并在任务恢复之后根据offset进行过滤,避免重复写入,可以保证exactly once delivery。但是要求目的地可以支持事务性,并且会在目的地有额外的数据存储。

原文地址:https://blog.51cto.com/13905119/2386723

时间: 2024-11-08 19:32:21

DataPipeline丨新型企业数据融合平台的探索与实践的相关文章

看看美团如何进行数据治理平台的建设与实践?

背景 作为一家高度数字化和技术驱动的公司,美团非常重视数据价值的挖掘.在公司日常运行中,通过各种数据分析挖掘手段,为公司发展决策和业务开展提供数据支持.经过多年的发展,美团酒旅内部形成了一套完整的解决方案,核心由数据仓库+各种数据平台的方式实现.其中数据仓库整合各业务线的数据,消灭数据孤岛:各种数据平台拥有不同的特色和定位,例如:自助报表平台.专业数据分析平台.CRM数据平台.各业务方向绩效考核平台等,满足各类数据分析挖掘需求.早期数据仓库与各种数据平台的体系架构如图1所示: 图1 酒旅早期各数

物理隔离下的数据交换平台难点解析与实践(一)

目录 第零章.前言:为什么?做什么?怎么做? 第一章.数据交换平台的一些基本概念 目录 第零章.前言:为什么?做什么?怎么做? 最近带队做了公司的一个项目,叫数据交换平台,旨在物理隔离的情况下对多端业务系统进行数据的加密.传输.监控. 正好这个项目的架构师也在公司做了一次架构层面的技术分享,我便把此次分享和我在项目实践中遇到的一些坑一起整理出来,形成本系列文章. 本系列文章介绍在物理隔离的网络条件下进行数据交换的难点,以及如何保证文件交换的可靠性和安全性,如何与业务系统做到低耦合. 本文的目的在

下篇丨数据融合平台DataPipeline的实际应用场景

一.对分库分表场景的支持 1. 场景说明 在同一个数据任务中,对源系统某张表,根据表中数据的业务逻辑,将数据同步到不同数据库的不同表中,例如:将集团的销售数据按照所属分公司的不同同步到对应的分公司数据库的销售数据表中. 2. 场景适用说明 源/目的地:关系型数据库 读取模式:无限制 3. 操作步骤 (1)根据设计确定分库分表规则: (2)根据已定规则选择对应数据源并创建数据源: (3)目的地将分库分表规则按照指定格式写入CSV文件: (4)DP将根据已定义的CSV规则对源端数据进行分库分表写入目

上篇丨数据融合平台DataPipeline的应用场景

距离2020年还有不到一周的时间,在过去的一年里DataPipeline经历了几次产品迭代.就最新的2.6版本而言,你知道都有哪些使用场景吗?接下来将分为上下篇为大家一 一解读,希望这些场景中能出现你关心的那一款. 场景一:应对生产数据结构的频繁变更场景 1. 场景说明 在同步生产数据时,因为业务关系,源端经常会有删除表,增减字段情况.希望在该情况下任务可以继续同步.并且当源端增减字段时,目的地可以根据设置选择是否同源端一起增减字段. 2. 场景适用说明   源/目的地:关系型数据库 读取模式:

DataPipeline数据融合重磅功能丨一对多实时分发、批量读取模式

为能更好地服务用户,DataPipeline最新版本支持: 1. 一个数据源数据同时分发(实时或定时)到多个目的地: 2.  提升Hive的使用场景: 写入Hive目的地时,支持选择任意目标表字段作为分区字段: 可将Hive作为数据源定时分发到多个目的地. 3. 定时同步关系型数据库数据时,可自定义读取策略来满足各个表的同步增量需求. 本篇将首先介绍一下一对多数据分发及批量读取模式2.0的功能,后续功能会在官微陆续发布. 一.推出「一对多数据分发」的背景 在历史版本中,DataPipeline每

LogSec日志大数据审计平台,企业信息安全管理人员不再“躺枪”

作为一名企业信息安全管理人员,你有没有被各种安全设备.服务器.网络设备的安全日志搞得焦头烂额?无论是要从各种日志中进行问题分析和定位,还是从日志中提取有用的信息,是不是都像大海捞针一样忙得筋疲力尽收获却总是寥寥? 而且,而且,你们单位里只有你一个安全管理员有木有? 单位这么多安全日志.设备日志,每天就好几万条怎么分析? 面对监管单位的安全检查,重点要求设备安全日志检查,怎么办? 那么在日常工作中,信息安全管理员究竟会面临哪些安全日志审计的问题呢? 日志分散在各地 随着信息化技术的逐渐深入,企业往

多备份:云端数据物流平台为企业提供云备份服务(通过增值服务盈利,数据备份相当于买保险)

在第六届云计算大会召开之际,云计算创新项目评选也在如火如荼展开,今天我们给大家介绍深圳木浪科技公司是国内首家从事基于互联网的云备份行业,团队成员都是来自腾讯.盛大.迅雷.1号店等知名IT公司的技术骨干. 云计算和大数据的产业顶级盛会,“ 第六届中国云计算大会”将于2014年5月20-23日在北京国家会议中心隆重召开.“ 全国云计算大数据创新项目评选”于2014年3月正式启动.本次项目评选由中国电子学会主办,中国电子学会云计算专家委员会及中国云计算技术与产业联盟共同承办, CSDN协办.该活动最终

大讲台谈如何运用大数据完善数据中心平台

随着大数据的各个领域的深入应用,大数据的价值正逐渐凸显,而大数据的核心价值在于从海量的复杂数据中挖掘出有价值的信息,通过大数据技术进行更快地分析.更准确地预测,发掘出新的业务模式,创造新的商业发展机会. 因此,大数据时代下,企业迫切需要思考如何应用大数据技术改造完善已有数据中心平台,提升企业的数据处理能力,提高数据分析水平,将大数据融入企业的整体数据方案.CDA数据分析师覆盖了国内企业招聘数据分析师所要求的所有技能,包括统计知识.软件应用(SPSS/SAS/R等).数据挖掘.数据库.报告撰写.项

烽火ExMobi引领企业移动应用平台浪潮

ExMobi移动应用平台,通过全面的数据集成技术和丰富的跨平台客户端展现能力,将业务系统快速.安全.高效的移植于移动终端,并以开放和标准的基础架构灵活支持HTML5和原生插件扩展. 产品从开发(IDE环境).集成(IT系统对接.云服务).打包(各个操作系统的应用打包).发布(应用的运行).管理(日志管理,更新管理)上提供了一套完整的移动化应用解决方案. 作为国内最好用的多引擎企业移动应用平台,烽火ExMobi产品具有这样几点优势: 专业的跨平台引擎 采用XHTML.JS和CSS全面融合可扩展自定