袋鼠云数据中台专栏2.0 | 数据中台之数据集成

关于袋鼠云数据中台专栏V2.0

数据中台如何定义?企业数据化与数据中台的关系是什么?数据中台如何支撑企业战略转型?袋鼠云近两年来,先后为国内数十家大型龙头企业提供数据中台咨询与实施落地服务,积累了大量的实战经验,同时也在为客户服务的过程中,不断完善和升华自身的数据中台理论体系和实践方法论。希望通过后续文章的分享,与诸位读者交流,共同加快企业全面数据化进程。本专栏每周更新1-2篇,敬请期待~

数据中台之数据集成

1

在现代企业中,由于使用场景、业务形态、技术选型、开发架构的差异,往往有多个异构的、基于不同的软硬件平台上的信息系统同时运行,这些系统的数据源彼此独立、相互封闭,使得数据难以在系统之间交流、共享和融合,从而形成了「信息孤岛」。随着信息化应用的不断深入,企业内部、企业与外部信息交互的需求日益强烈,急切需要对已有的信息进行整合,联通“信息孤岛”,共享信息。

在企业构建数据数据中台来解决数据互通和共享的要求下,「数据集成」是打通信息系统和数据中台的管道和桥梁,是构成数据中台全、统、通的重要基础。

数据中台 全 统 通

本文所讲的数据集成,主要指的是从不同的数据存放介质将数据同步至数据中台的环节,在某些场景下,也可以称作「数据采集」、「数据同步」、「数据上云」。

2 准备工作

在数据集成实施开发前,我们一般要进行以下调研和准备工作:

  • 数据源分类:见上一期的 数据中台之数据源,确定数据源种类,并根据数据及时性要求,确定采集的技术组件
  • 网络和环境:确定数据源的网络和环境信息,根据实施集成方案,对现有的网络和环境进行必要的改造和优化

  • 数据内容:调研数据的全量大小、增量大小、分布情况
  • 数据质量:调研数据的增量标记、索引、主键信息等
  • 数据范围:调研需要集成的数据范围,筛选出需要集成到数据中台的相关数据,一般以支撑业务流程或带业务属性的数据为主

3 业务架构

针对采集的业务内容,以及常见的同步分类,我们将数据集成的业务架构整理如下:


数据集成的业务架构

4 集成流程

以下通过几个典型的数据同步场景案例,来介绍数据同步流程。

3.1 关系型数据库离线同步流程


关系型数据库离线同步流程

3.2 API类数据同步

API类数据同步

3.3 实时类数据同步


实时类数据同步

5 袋鼠云数栈 DTinsight - 数据同步模块

数据同步模块是在各个存储单元之间执行数据交换的管道。

为了在「DTinsightIDE」进行大规模数据集的挖掘与计算,通常的做法是在任务执行前将数据传输至DTinsightIDE,并在任务执行结束后将计算结果传输至外部存储单元(例如MySQL等应用数据库)。

数据集成的作用如下图所示:

袋鼠云数栈-数据同步模块

袋鼠云数栈-数据同步模块的具有以下

  • 丰富的数据源支持
    数据同步模块可对MySQL、Oracle、SQLServer、PostgreSQL、HDFS、Hive、HBase、FTP、ElasticSearch、ODPS、ElasticSearch、Redis、MongoDB等数据源,支持对这些数据源进行读取或写入数据。使用时仅需配置数据源的连接信息(例如填写Oracle数据库的JDBC URL、用户名、密码等信息),再配置对应的数据同步任务即可。
  • 分布式系统架构
    数据同步模块在系统架构上采用先进的分布式系统架构(FlinkX[1]),可实现多个节点并发读取、写入数据,可极大的提升数据同步的吞吐量,相比Sqoop、Kettle等开源数据同步方案,数据吞吐能力更高、配套功能。
  • 可视化配置
    用户在使用数据同步模块时,可快速通过可视化配置的方式完成同步任务的创建与配置,主要包括同步任务选择源库源表、目标库目标表、配置字段映射、配置同步速度等。
  • 全量/增量同步
    从业务系统读取数据的过程中,为了最小化对业务系统的影响,通常需要进行数据的增量同步。在源数据库表中具备数据变更时间字段的情况下,支持对关系型数据库进行增量数据同步,用户仅需输入相应的数据过滤语句即可实现。
  • 同步速度的控制
    支持数据同步速度控制,通过设置同步速率上限来调整,此参数需根据硬件配置和数据量来调整,用户根据业务需求选择设定的值。
  • 脏数据管理
    支持对脏数据是否需要记录进行配置,可指定脏数据的存储表名、生命周期,同时可配置当脏数据量超过一定数量或一定比例时任务置为失败,提示用户及时排查脏数据问题,并生成分析报告。

更多精彩

关于袋鼠云数据中台系列专栏V2.0请添加链接描述

关于袋鼠云

袋鼠云是企业数据化整体解决方案提供商,是数据中台架构倡导者、引领者,通过打通数据供应链,构建企业数据化驱动引擎,加速企业数据化进程,让数据成为企业核心竞争力。

原文地址:https://blog.51cto.com/13766600/2396162

时间: 2024-10-10 10:46:29

袋鼠云数据中台专栏2.0 | 数据中台之数据集成的相关文章

袋鼠云数据中台专栏2.0 | 企业数据化认知:数据就是生产力!

关于袋鼠云数据中台专栏V2.0 数据中台如何定义?企业数据化与数据中台的关系是什么?数据中台如何支撑企业战略转型? 袋鼠云近两年来,先后为国内数十家大型龙头企业提供数据中台咨询与实施落地服务,积累了大量的实战经验,同时也在为客户服务的过程中,不断完善和升华自身的数据中台理论体系和实践方法论.希望通过后续文章的分享,与诸位读者交流,共同加快企业全面数据化进程. 本专栏每周更新1-2篇,敬请期待~ 正文 一. 数据就是生产力.笔者两年前在袋鼠云做的国内某省一个交警项目上,面对着海量的车辆轨迹数据时,

袋鼠云数据中台专栏2.0 | 数据中台综述:三个维度看数据中台

一.关于数据中台的9个名词 数据中台是什么,当前有很多解释,但是它一定不是哈姆雷特. 新兴的事物总会被各种解读,但是当人们足够熟悉了以后,总会有一个公允的定义得到广泛的认可和接受.这个过程中,最可以用于度量的便是「功能定义」与「业务价值」.袋鼠云认为,数据中台表现出的最主要特征是一种企业数据化体系的架构,而且就目前而言,这种架构是最为有效的一种架构. 目前很多人把数据中台直接等同于企业数据化,AI和大数据,或者是直接的业务价值,甚至企业变革(比如新零售).这些都是不准确的,数据中台的价值被过于放

袋鼠云数据中台专栏2.0 | 企业三界:业务界面,应用界面,数据界面

关于袋鼠云数据中台专栏V2.0 数据中台如何定义?企业数据化与数据中台的关系是什么?数据中台如何支撑企业战略转型? 袋鼠云近两年来,先后为国内数十家大型龙头企业提供数据中台咨询与实施落地服务,积累了大量的实战经验,同时也在为客户服务的过程中,不断完善和升华自身的数据中台理论体系和实践方法论.希望通过后续文章的分享,与诸位读者交流,共同加快企业全面数据化进程. 本专栏每周更新1-2篇,敬请期待~ 正文 一.企 业 三 界 本篇文章阐述「企业业务」.「企业信息化」,「企业数据化」三者之间的关系. 界

袋鼠云数据中台专栏2.0 | 企业数字化建设三范式

袋鼠云数据中台专栏V2.0 数据中台如何定义? 企业数据化与数据中台的关系是什么? 数据中台如何支撑企业战略转型? 袋鼠云近两年来,先后为国内数十家大型龙头企业提供数据中台咨询与实施落地服务,积累了大量的实战经验,同时也在为客户服务的过程中,不断完善和升华自身的数据中台理论体系和实践方法论.希望通过后续文章的分享,与诸位读者交流,共同加快企业全面数据化进程. 本专栏每周更新1-2篇,敬请期待~ 袋鼠云数据中台专栏V2.0 Vol.04,企业数字化建设三范式 1 笔者的职业生涯是从研发岗位开始的,

袋鼠云数据中台专栏(六):企业数据指标的那些事儿

本文作者:子玺 袋鼠云数据中台解决方案专家.拥有近10年大数据从业经验,拥有PMP项目管理资格认证,精通数据类项目的开发实施和管理.曾服务过国家工商总局.北京市工商局.北京市财政局.广州开发区大数据局.平湖人社局.海盐人社局等行政单位,担任多个大型数据项目的数据应用咨询顾问/项目经理. 一.企业指标体系的重要性不言而喻 在我们谈论指标之前,先将时间倒推几十年,现代管理学之父彼得·德鲁克说过一句很经典的话:如果你不能衡量它,那么你就不能有效增长它.所谓衡量,就是需要统一标准来定义和评价业务,这个标

袋鼠云数据中台专栏(七):用户标签体系建设的四字箴言

本文作者:子玺 袋鼠云数据中台解决方案专家.拥有近10年大数据从业经验,拥有PMP项目管理资格认证,精通数据类项目的开发实施和管理.曾服务过国家工商总局.北京市工商局.北京市财政局.广州开发区大数据局.平湖人社局.海盐人社局等行政单位,担任多个大型数据项目的数据应用咨询顾问/项目经理. 正文: 一.什么是用户画像?什么是标签? 当我们从互联网时代逐渐步入大数据时代后,企业及消费者行为不可避免地要面临一系列改变与重塑.其中最大的变化莫过于,消费者的一切行为在企业面前似乎都将是「可视化」的,然而,「

袋鼠云X默安科技达成战略合作:数据智能,让安全的未来变成现在

近日,袋鼠云 X 默安科技完成战略合作框架协议的签署,建立战略合作关系,并联合推出基于日志大数据的安全智能解决方案,结合双方技术和能力优势,探索如何基于数据智能,实现企业IT安全防护和管理的智能化,挖掘日志大数据在IT安全应用场景的更多可能性. 数据智能驱动企业IT安全防护和管理智能化 "数据智能"是一个动词,其核心含义即是数据驱动决策.所谓数据驱动决策,不是数据辅助决策,而是用数据来代替人决策.利用人工智能.深度学习等技术,基于大规模量的数据分析和挖掘结果,数据智能实时自主决策,减少

准独角兽袋鼠云:入围“浙江大数据灵杰榜”,获评“星禾奖创新技术企业”!

2018年7月15日,由工信部.科技部.民政厅等相关主管单位指导,浙江省大数据科技协会主办的"2018浙江省大数据产业峰会(Zhejiang Big Data Industry Conference 2018)"在杭州JW万豪酒店隆重召开. 本届"2018浙江省大数据产业峰会"以"聚智慧·创未来"为主题,内容涵盖大数据政策规划.技术创新.行业应用实践等议题,吸引了包括阿里云.科大讯飞.网易.百度.等各地知名企业参加,袋鼠云以浙江省大数据科技协会理

Django2.0在models创建数据表时报错

Django2.0在models创建数据表时报错TypeError: __init__() missing 1 required positional argument: 'on_delete' 如下创建了两个表,Tag 表以 Contact 表为外部键,此时可以看到pycharm控制台报错 123456789101112131415 class (models.Model): name = models.CharField(max_length=200) age = models.Intege