这些传统数据集成的痛,你还在经历吗?

20多天后,我们将步入2020年。在即将过去的2019年,人工智能、5G、数字货币等技术不断冲击着传统的数据治理模式,你所在的企业是否同样感受到了冲击?在这些难以言说的痛中间,又有多少是传统数据集成所带来的?

今年,随着数据驱动决策的理念逐渐深入人心,越来越多的企业开始逐步对存量的数据资产进行消费,在数据消费过程中引入各种数据集成的工具,来解决数据打通的问题,并用于后端数据消费:如分析报表、数据查询、和数据挖掘等工作。

大数据时代的到来,不仅意味着数据来源更加广泛,数据存储量增加,同时对于数据及时性要求也越来越高,传统数据集成工具的瓶颈越发明显。其中主要表现在以下几点,看完后,你正在经历哪几种?

一、数据及时性

各行各业的业务部门对于数据时效性的看法是:希望越快越好。金融行业的客户经理希望第一时间得到客户的动账通知;客户在申请贷款时,希望能够秒批秒贷;数字化营销部门的负责人希望能根据渠道投放的实时反馈及时调整投放策略;连锁零售门店也希望能实时掌握各个门店的库存,避免外卖的骑手取货时才发现货品已经售罄,而客户不得不提出退款;而在互联网行业,任何用户的行为分析都需要实时,以便在客户短暂的上线时间段能抓住客户的需求点。业务追求的是增长,快对于业务的改变不仅仅是减少低效的投入,及时止损,快速试错,更重要的是能加快业务的微创新,提升客户的体验,在更短的周期内快速迭代,应对千变万化的市场。

而随着业务的快速增长,数据源端应用系统的数据结构往往会快速变化,更多异构数据源以及外部数据也会不断地被引入,这给基于传统数据集成工具的开发流程带来了不小的挑战。传统的数据集成从取数任务的开发到用户能够用上数据,整个开发周期耗时较长,跨越多个部门,难以敏捷响应,往往一边是火烧眉毛的业务用户,另一边是加班加点的数据工程师们。

二、异构数据源和目的地

企业在发展过程中会采购不同供应商提供的服务系统,这就导致数据源采用的数据库技术不尽相同。随着大数据技术的发展以及 NoSQL 接受程度越来越高,导致数据的存储方式也多种多样。出现关系型数据库和非关系型数据库并存,多种结构化和非结构化数据亟待打通的情况。

而在数据服务侧,从传统的数据仓库技术到现在的大数据平台,从报表展现到预测分析,数据的目的地从数仓,MPP 数据集市,基于 Hadoop 的大数据平台到云上的各种数据服务,数据集成产品需要支持多样化的数据目的地。由于存在多种异构数据源和目的地并存的情况,如何快速打通数据孤岛,实现数据资产的消费成为困扰很多企业 IT 部门的难题。而传统的数据集成工具由于本身的技术架构在应对异构数据源,尤其是非结构化数据方面表现乏力,或是实现异构兼容的代价较高,因此在落地的项目中,二次开发工作量较大,并且上线后维护成本非常高。

三、人工开发和维护成本

随着业务的开展和渠道的多样化,业务和决策部门对于数据及时性的要求越来越高,这给数据部门带来了很大压力。传统数据集成工具在数据需求愈加旺盛的现代化企业里面临以下的困难:

1. 数据开发周期长、工作量大


传统的数据集成工具开发流程,首先需要在目的端创建数据表,其次通过工具进行数据表字段类型的映射、选择增量或全量同步规则和编写清洗规则,最后将开发好的任务配置发布到调度 Sequence 中。如果一个数据源需要 20 张数据表,意味着至少需要开发 20 个任务。

2.维护成本高

传统 ETL JOB 需要依靠调度配置任务的依赖关系,存在数据同步的先后次序。这样不仅拉长了数据消费的周期,也增加了运营成本。需要运营人员充分了解数据之间的依赖关系,增加了运营的难度;且同步采用的单表同步方式,导致数据同步数量庞大,增加了监控的难度。

3. 源端数据表结构变化监控难

随着业务的发展,源端的数据表结构会做对应的调整,为保证数据的准确性和一致性,目的端也需要能够及时做响应。传统的数据集成工具很难实现源端数据表结构变化的自适应。

4. 异构数据源兼容难

传统数据集成工具,在支持关系型数据库方面大多能够提供强大的解决方案,但是对于支持非结构化数据库能力偏弱。这就导致很多企业在打通异构数据源时,需要使用多套产品来解决异构数据源打通的问题。


针对上述提到的情况,一位相关工作人员就提出了以下几点让人崩溃的问题:

问题1:业务部门数据由于历史原因,使用的RDS(关系型数据库服务)类型多种多样,有Oracle、SQLServer等 ,如何整合这些数据库的部分数据到一个大数据平台进行数据分析?

问题2:业务部门数据表设计之初,没有考虑ETL数据抽取的问题,换言之没有时间字段,如何在上百G的数据中抽取增量数据?

问题3:关于实时计算的大数据项目,目前我们业务部门需要5~10分钟获得一次当前Call Center(呼叫服务中心)的工作情况,数据量较大。如果不能实时运算,难道要不断借助各种传统的ETL 进行增量数据提取?

问题4:业务部门中有数据分析人员,有人精通 T-SQL, 有人擅长 PL/SQL,还有人只会JAVA,如何满足多种多样的数据目的地需求?

问题5:由于数据库更新,需要使用PostgreSQL代替Oracle。目前需要进行灰度发布,Oracle 和 PostgreSQL 数据之间进行实时同步,当程序跑通,上线两个礼拜没有问题后将Oracle 清除。

问题6:传统ETL在数据权限管理上问题较多,从与技术无关的角度来说,至少公司尤其是外企的审计、安全部门,对数据的流向、权限是非常重视的。有一个良好的用户权限管理,非常有必要。

以上几个问题只是其中的冰山一角,当多个数据源数据获取不及时造成数据获取延迟,数据获取不准确,数据提供的格式错误时,就会给业务系统带来负担,造成业务投诉。这期间集中了大数据部门工作人员、机器、程序等各种问题。各种不满和委屈在这个数据通道的需求中,集中爆发。

四、新型数据融合平台做了哪些优化工作

1. 针对及时性问题

实时的数据供应链是数据驱动企业的命脉,如果流计算足够快的话,批处理和流处理将采用同一个技术框架,采集、集成、分发数据,这也是 DataPipeline 基于流计算框架设计面向未来数据融合平台的出发点。DataPipeline 基于流式数据处理的模式,实现在不间断的时间轴上,不间断地处理无限数据集。不仅能实时获取源端的数据变化,还能及时消费掉,这样可以保证数据的实时传输。

2. 针对多源异构数据同步问题

DataPipeline 在产品设计之初,就深刻意识到只有打通各种异构的数据源,才能真正实现企业级的数据融合。目前 DataPipeline 产品已经适配了市场上主流的关系型数据库和非关系型数据库,对象存储等。同时还可以快速实现云上数据平台、以及各种大数据平台的数据打通、以及文件系统同步等功能。

3. 针对开发和后期维护

DataPipeline继承了开源的优势,灵活、自主可控、可扩展,同时侧重于丰富用户所需的管理功能:数据管理,监控,运维,稳定性,容错性,以及故障排查的能力。

另外在用户管理权限方面,工作人员通过可视化运维看板(数据任务看板、速率进度信息、报表统计、日志审计),可以看到数据同步的状态、数据的来源与结构,及时了解数据的接入、交换和数据流向。当数据同步出现问题时,基于完善的纠错机制与系统状态监控,可第一时间找到数据源并进行处理。在提升工作效率的同时,降低了工作负荷。

如果步入2020年,你是否已经想好如何平稳渡过数字化转型的深水区?借助新型数据融合技术,也许会带你走出欲济无舟楫的尴尬境地。

部分内容来自:AustinDatabases

原文地址:https://www.cnblogs.com/DataPipeline2018/p/11990805.html

时间: 2024-10-09 04:01:11

这些传统数据集成的痛,你还在经历吗?的相关文章

数据集成实例

如图1-5所示,下面的例子说明了一个完整的数据集成方案. 数据源和中介模式 在这个例子中,我们有5个数据源.第一个是最左边的S1,它存储电影数据,包括电影的名字.演员.导演和类型.接下来的3个数据源S2-S4存储有关场次的数据.数据源S2包括了整个国家的影院,而S3和S4仅代表性地存储了纽约和旧金山的影院数据.需要注意的是,虽然这3个数据源都存储同一类型的数据,但它们使用的属性名是不同的.最右边的数据源S5则存储影评数据. 中介模式包括4个关系:Movie(电影).Actors(演员).Play

Oracle 数据集成的实际解决方案

就针对市场与企业的发展的需求,Oracle公司提供了一个相对统一的关于企业级的实时数据解决方案,即Oracle数据集成的解决方案.以下的文章主要是对其解决方案的具体描述,望你会有所收获. Oracle 数据集成解决方案 Oracle数据集成解决方案用于在SOA.BI和数据仓库环境中构建.部署和管理以实时数据为中心的架构,包含了Oracle数据集成的所有要素--实时数据移动.转换.同步.数据质量.数据管理和数据服务--能确保各个复杂系统的信息及时.准确.一致. 通过使用Oracle数据集成,企业将

数据集成之主数据管理(一)基础概念篇

数据集成是当下比較热门的话题,相关的产品和平台也越来越多.非常多CIO都在各种数据集成平台和产品之间犹豫不决.因此对数据集成平台的框架体系有全面的理解,对各个厂家产品所提供的功能有深入的认识才干为数据平台选型的决策提供可靠的保证. 我有幸參与了国内一个知名企业的集成平台的设计工作,并主导了数据集成平台的需求分析和产品选型工作.这次工作中,研究了非常多新的技术方向和产品,以下我主要讲一下数据集成领域的一种新兴的产品平台主数据管理平台MDM(Master Data Management). 主数据的

大数据管理:数据集成的技术、方法与最佳实践 读书笔记三

7.1 什么是数据仓库 数据仓库是基于特定的数据结构(以及有关应用程序)所构建的数据的中央存储库,以便为分析和报表提供 一致的数据源.面向整个组织创建的企业数据仓库(Enterprise Data Warehouse,EDW)用于对整个组织的信息 进行分析.大多数情况下,超大型组织中会有多个企业级数据仓库,每个都拥有组织中某个很大组成部分的数 据,如某个区域,或者很大的功能域.批处理数据集成方案通常用于将数据置入或者移出数据仓库.数据仓库架 构的设计要达到以下目的:为整个组织的分析提供一致可用的

什么是云容灾?它与传统数据备份有什么不同?

一.什么是云容灾?云容灾,也叫做云灾备(英文名:Cloud DRaaS)是以云服务的方式为企业提供提供数据容灾备份服务,企业无需投入大量时间.人力.资源成本,具有即开即用,按需付费,弹性扩容,方便管理等特点.二.而传统数据备份:指数据备份的介质从磁带发展到虚拟带库.备份一体机,或是利用传统备份软件,但备份数据的备份格式没有任何改变.传统方式的数据管理已经不能满足许多企业的数据恢复和保护的需要.从企业的角度,花在数据保护上的高昂费用,面对越来越高的行业数据存储规范标准,传统的保存模式已经显得越来越

大数据与传统数据

小编说:在这个人人都说大数据的时代,许多人对大数据的印象只是停留在仰望的阶段,其实大数据没人们说得那么神奇.玄乎或者是无所不能,今天我们就以传统数据作为比对,看看大数据究竟有什么特点让其处于时代的浪潮之巅. 本文选自<从1开始--数据分析师成长之路>. 大数据与传统数据相比的主要特点可以概括为:数据量"大".数据类型"复杂".数据价值"无限".  数据量大十分好理解,以前我们存储数据使用的单位是 KB,一个Excel表格也就几十到几百

数据集成:Flume和Sqoop

Flume和Sqoop是Hadoop数据集成和收集系统,两者的定位不一样,下面根据个人的经验与理解和大家做一个介绍: Flume由cloudera开发出来,有两大产品:Flume-og和Flume-ng,Flume-og的架构过于复杂,在寻问当中会有数据丢失,所以放弃了.现在我们使用的是Flume-ng,主要是日志采集,这个日志可以是TCP的系统的日志数据,可以是文件数据(就是通常我们在Intel服务器,通过其中的机构传过来的接口,或者通过防火墙采集过来的日志),在HDFS上去存储,可以和kaf

消息总线扩展之面向消息的数据集成

最近一段时间,我在琢磨消息总线除了能进行受管控的消息通信之外,还有哪些可以扩展的方向.这篇文章我们来探讨一下面向消息的数据集成是否可以作为一种尝试方向. 相关技术简介 XML 谈到XML我们的第一映像就是用它来做各种配置,当然如果你是Javaer,那么可能你印象最深的就是Spring的bena配置了.其实,XML的用途远不止充当配置文件这一方面.它还被广泛应用于异构系统集成.数据集成.语义/协议转换等等方面,甚至成为构建平台非常重要的基石.虽然XML一直以来被人诟病其解析效率低下以及数据量太冗余

实时数据集成

企业应用集成 面向服务的体系结构 (SOA) 目前应该是一个很受欢迎的名词,中间件技术人员几乎到了言必称SOA的程度,数据集成当然也不例外,在Oracle openworld2008大会上,就推出了一堆数据集成的专场演讲,其中和SOA结合最紧密的就是实时数据集成 real time data integration.我总结了一下,实时数据集成一般分为两个处理过程:一是对数据按照SOA架构的需要进行整合加工形成可用的信息,二是将信息以符 合SOA规范的方式发布出去.具体的实时数据集成模式可以按照对