【2020】DBus,一个更能满足企业需求的大数据采集平台

功能远超Sqoop、DataX、Flume、Logatash、Filebeat等采集工具

注:由于文章篇幅有限,完整文档可扫免费获取

深知其他组件的局限性,才能彰显DBus的优越感

当前有很多数据采集工具(Sqoop、DataX、Flume、Logatash、Filebeat等),他们或多或少都存在一些局限性。

一个共性问题是缺乏统一的数据源端管控,所以也就无法找到统一的数据入口,那后续处理元数据或者血缘分析会异常困难。除此之外,现有各种数据采集工具的数据同步方法也有一定的局限性。比如:

(1)各个数据使用方在业务低峰期各种抽取所需数据(缺点是存在重复抽取而且数据不一致)

(2)由统一的数仓平台通过sqoop到各个系统中抽取数据(缺点是sqoop抽取方法时效性差,一般都是T+1的时效性)

(3)基于trigger或时间戳的方式获得增量的变更(缺点是对业务方侵入性大,带来性能损失等)

这些方案都不能算完美,要想同时解决数据一致性和实时性,比较合理的方法应该是基于日志的解决方案,同时能够提供消息订阅的方式给下游系统使用。在这个背景下DBus就诞生了。

DBus到底是什么?给我一个完美的解释

       DBus(数据总线)项目为了统一数据采集需求而生, 专注于数据的收集及实时数据流计算,通过简单灵活的配置,以无侵入的方式对源端数据进行采集,采用高可用的流式计算框架,对公司各个IT系统在业务流程中产生的数据进行汇聚,经过转换处理后成为统一JSON的数据格式(UMS),提供给不同数据使用方订阅和消费,充当数仓平台、大数据分析平台、实时报表和实时营销等业务的数据源。支持多租户管理,提供租户级资源、数据隔离机制。

看DBus官网,了解更多更新一手资料

https://github.com/BriData/DBus

看DBus架构,聚焦DBus两大核心功能

DBUS主要分为两个部分:

(1)贴源数据采集

(2)多租户数据分发

两个部分之间以Kafka为媒介进行衔接。无多租户资源、数据隔离需求的用户,可以直接消费源端数据采集这一级输出到kafka的数据,无需再配置多租户数据分发

继续深入贴源数据采集功能模块

DBUS源端数据采集大体来说分为两部分:

读取RDBMS增量日志的方式来 实时获取增量数据日志,并支持全量拉取;基于logtash,flume,filebeat等抓取工具来实时获得数据,以可视化的方式对数据进行结构化输出;

以下为具体实现原理:

主要模块如下:

(1)日志抓取模块:从RDBMS的备库中读取增量日志,并实时同步到kafka中;

(2)增量转换模块:将增量数据实时转换为UMS数据,处理schema变更,脱敏等;

(3)全量抽取程序:将全量数据从RDBMS备库拉取并转换为UMS数据;

(4)日志算子处理模块:将来自不同抓取端的日志数据按照算子规则进行结构化处理;

(5)心跳监控模块:对于RDMS类源,定时向源端发送心跳数据,并在末端进行监控,发送预警通知;对于日志类,直接在末端监控预警。

(6)web管理模块:管理所有相关模块。

继续深入多租户数据分发功能模块

对于不同租户对不同源端数据有不同访问权限、脱敏需求的情形,需要引入Router分发模块,将源端貼源数据,根据配置好的权限、用户有权获取的源端表、不同脱敏规则等,分发到分配给租户的Topic。这一级的引入,在DBUS管理系统中,涉及到用户管理、Sink管理、资源分配、脱敏配置等。不同项目消费分配给他的topic。

未完待续。由于文章篇幅有限,完整文档可扫码免费获取。

原文地址:https://www.cnblogs.com/dajiangtai/p/12363176.html

时间: 2024-10-09 07:51:43

【2020】DBus,一个更能满足企业需求的大数据采集平台的相关文章

【2020】 DBus,一个更能满足企业需求的大数据采集平

功能远超Sqoop.DataX.Flume.Logatash.Filebeat等采集工具 深知其他组件的局限性,才能彰显DBus的优越感 当前有很多数据采集工具(Sqoop.DataX.Flume.Logatash.Filebeat等),他们或多或少都存在一些局限性.一个共性问题是缺乏统一的数据源端管控,所以也就无法找到统一的数据入口,那后续处理元数据或者血缘分析会异常困难.除此之外,现有各种数据采集工具的数据同步方法也有一定的局限性.比如:(1)各个数据使用方在业务低峰期各种抽取所需数据(缺点

如何构建一个企业的大数据分析平台

面对海量的各种来源的数据,如何对这些零散的数据进行有效的分析,得到有价值的信息一直是大数据领域研究的热点问题. 大数据分析处理平台就是整合当前主流的各种具有不同侧重点的大数据处理分析框架和工具,实现对数据的挖掘和分析,一个大数据分析平台涉及到的组件众多,如何将其有机地结合起来,完成海量数据的挖掘是一项复杂的工作.在搭建大数据分析平台之前,要先明确业务需求场景以及用户的需求,通过大数据分析平台,想要得到哪些有价值的信息,需要接入的数据有哪些,明确基于场景业务需求的大数据平台要具备的基本的功能,来决

【阿里在线技术峰会】李金波:企业大数据平台仓库架构建设思路

摘要: 在阿里巴巴在线在线技术峰会上的第三天,来自阿里云高级技术专家李金波为大家题为<企业大数据平台仓库架构建设思路>.本次分享中,李金波主要从总体思路.模型设计.数加架构.数据治理四个方面介绍了如何利用大数据平台的特性,构建更贴合大数据应用的数据仓库. 本文根据阿里云高级技术专家李金波在首届阿里巴巴在线峰会的<企业大数据平台仓库架构建设思路>的分享整理而成.随着互联网规模不断的扩大,数据也在爆炸式地增长,各种结构化.半结构化.非结构化数据的产生,越来越多的企业开始在大数据平台下进

FusionInsight,一个融合的大数据平台

随着物联网技术和应用的普及,以运营商.互联网以及实体经济行业为代表的企业产生了越来越多的数据,大数据的发展越来越蓬勃. 从2007年开始,大数据应用成为很多企业的需求,2012年兴起并产生了大数据平台,使用者主要是程序员:2013年到2017年间,数据逐渐增多,大数据平台变成了融合大数据平台,使用者从程序员变成数据管理员和数据分析师:从2018年开始,大数据进入企业数据智能新阶段,普通的工程师也能轻松应用. 当数据越来越多,需求也越来越高,环境越来越复杂,分析处理的方式也多种多样,这对平台有了更

企业信息管理原地踏步 你该考虑Power-BI大数据分析平台

大数据的浪潮已席卷全球,越来越多的企业逐渐认同数据分析在管理支持上的重要地位. 但对于大多数企业来说,大数据还是很陌生,构建大数据分析平台不是一件容易的事,总是障碍重重,导致忙活了半天,企业的数据化管理仍然在原地踏步.为此,这里提供奥威Power-BI首席咨询顾问邹总在长三角CIO高峰论坛分享的关于构建大数据分析平台的演讲提到的企业遇到的一些大问题,来看看你的企业有没有这些问题呢? 一.系统定位不清 在启动一个商业智能BI项目前,系统定位是非常关键的.但企业没有想清楚项目的目标,也没有对自己的信

大数据时代—— 一个创造超级竞争力企业的时代

这是一个快速发展的时代,随着互联网的普及,数据成指数倍增长,相同类型的企业也如雨后春笋般越来越多!那么如何在这个快速发展的时代,脱颖而出,把握时代的脉搏呢?答案就是:建立自己企业的大数据!提高企业的生存和竞争力,大数据无疑是一把利剑,通过数据分析,不仅可以让你知己知彼,更可以让自己的企业决胜千里之外,使企业在与同行竞争中,更具竞争力的一大利器,用的好,甚至能碾压竞争对手.大数据近年的崛起和发展已经初现其巨大的作用,据分析拥有优秀大数据能力的企业,做出正确决策的可能性高出竞争对手3倍.决策速度比竞

如何选择一个好用的企业邮箱

在高度信息化的今天,企业邮箱成为了商务洽谈.内部沟通不可缺少的一环.如何选择一个好用的企业邮箱,安全性.便捷性.能否满足多场景的办公需求等均尤为重要.今天小邮从以下几个维度重点说明.用户体验便捷性对企业客户而言,收发信的速度及体验.系统是否安全.服务人员的响应速度等是我们考量的基础要素.TOM企业邮箱优化发信体验,支持邮件密送.撤回.群发单显.回执等实用功能,可以帮助企业轻松办公,拥有便捷体验. 邮箱安全性邮箱安全问题向来是用户最关心的问题之一,主要体现在邮箱的防病毒防***能力和对邮件的加密功

简信CRM分享:个性定制化CRM,完美契合企业需求

随着信息技术的高速发展,企业信息化的建设要求也随之增高,不少企业希望能找到可以完美匹配自己管理手段及业务模式的产品,又希望产品可以应对未来的业务发展. 对于具有个性化需求的企业,定制开发一套专属的CRM系统是最好的解决办法了.以下给大家列举需要定制CRM系统的四大理由. 一.商业策略由于各行各业.各家企业需求不一,很难使用标准化的CRM系统满足各个企业的发展需求.除此,大家都知道定制CRM系统是为了企业更好的管理客户,服务好客户而进行开发的一款软件,因此不仅仅是一个软件,还是一个企业实力的综合反

COM是一个更好的C++

昨天看了<COM本质论>的第一章"COM是一个更好的C++",觉得很有必要做一些笔记,于是整理成这篇文章,我相信你值得拥有. 这篇文章主要讲的内容是:一个实现了快速查找功能的类FastString,在一个小小的需求之后,慢慢的演变成一个COM组件的过程. 类FastString实现了一个快速查找字符串的功能,快到时间复杂度是O(1),我们先不管作者是怎么实现的,估计是通过空间换时间.由于这个类查找字符串很快,于是作者就把这个类当做一个产品,以源码的方式卖给需要的厂商,厂商用