【2020】 DBus,一个更能满足企业需求的大数据采集平

功能远超Sqoop、DataX、Flume、Logatash、Filebeat等采集工具


深知其他组件的局限性,才能彰显DBus的优越感

当前有很多数据采集工具(Sqoop、DataX、Flume、Logatash、Filebeat等),他们或多或少都存在一些局限性。

一个共性问题是缺乏统一的数据源端管控,所以也就无法找到统一的数据入口,那后续处理元数据或者血缘分析会异常困难。
除此之外,现有各种数据采集工具的数据同步方法也有一定的局限性。比如:
(1)各个数据使用方在业务低峰期各种抽取所需数据(缺点是存在重复抽取而且数据不一致)
(2)由统一的数仓平台通过sqoop到各个系统中抽取数据(缺点是sqoop抽取方法时效性差,一般都是T+1的时效性)
(3)基于trigger或时间戳的方式获得增量的变更(缺点是对业务方侵入性大,带来性能损失等)
这些方案都不能算完美,要想同时解决数据一致性和实时性,比较合理的方法应该是基于日志的解决方案,同时能够提供消息订阅的方式给下游系统使用。在这个背景下DBus就诞生了。

DBus到底是什么?给我一个完美的解释

DBus(数据总线)项目为了统一数据采集需求而生, 专注于数据的收集及实时数据流计算,通过简单灵活的配置,以无侵入的方式对源端数据进行采集,采用高可用的流式计算框架,对公司各个IT系统在业务流程中产生的数据进行汇聚,经过转换处理后成为统一JSON的数据格式(UMS),提供给不同数据使用方订阅和消费,充当数仓平台、大数据分析平台、实时报表和实时营销等业务的数据源。支持多租户管理,提供租户级资源、数据隔离机制。

看DBus官网,了解更多更新一手资料

https://github.com/BriData/DBus

看DBus架构,聚焦DBus两大核心功能


DBUS主要分为两个部分:
(1)贴源数据采集
(2)多租户数据分发
两个部分之间以Kafka为媒介进行衔接。无多租户资源、数据隔离需求的用户,可以直接消费源端数据采集这一级输出到kafka的数据,无需再配置多租户数据分发

继续深入贴源数据采集功能模块

DBUS源端数据采集大体来说分为两部分:
读取RDBMS增量日志的方式来 实时获取增量数据日志,并支持全量拉取;基于logtash,flume,filebeat等抓取工具来实时获得数据,以可视化的方式对数据进行结构化输出;
以下为具体实现原理:

主要模块如下:
(1)日志抓取模块:从RDBMS的备库中读取增量日志,并实时同步到kafka中;
(2)增量转换模块:将增量数据实时转换为UMS数据,处理schema变更,脱敏等;
(3)全量抽取程序:将全量数据从RDBMS备库拉取并转换为UMS数据;
(4)日志算子处理模块:将来自不同抓取端的日志数据按照算子规则进行结构化处理;
(5)心跳监控模块:对于RDMS类源,定时向源端发送心跳数据,并在末端进行监控,发送预警通知;对于日志类,直接在末端监控预警。
(6)web管理模块:管理所有相关模块。

继续深入多租户数据分发功能模块

对于不同租户对不同源端数据有不同访问权限、脱敏需求的情形,需要引入Router分发模块,将源端貼源数据,根据配置好的权限、用户有权获取的源端表、不同脱敏规则等,分发到分配给租户的Topic。这一级的引入,在DBUS管理系统中,涉及到用户管理、Sink管理、资源分配、脱敏配置等。不同项目消费分配给他的topic。

原文地址:https://blog.51cto.com/13735753/2475676

时间: 2024-10-09 07:51:50

【2020】 DBus,一个更能满足企业需求的大数据采集平的相关文章

【2020】DBus,一个更能满足企业需求的大数据采集平台

功能远超Sqoop.DataX.Flume.Logatash.Filebeat等采集工具 注:由于文章篇幅有限,完整文档可扫免费获取 深知其他组件的局限性,才能彰显DBus的优越感 当前有很多数据采集工具(Sqoop.DataX.Flume.Logatash.Filebeat等),他们或多或少都存在一些局限性. 一个共性问题是缺乏统一的数据源端管控,所以也就无法找到统一的数据入口,那后续处理元数据或者血缘分析会异常困难.除此之外,现有各种数据采集工具的数据同步方法也有一定的局限性.比如: (1)

大数据时代—— 一个创造超级竞争力企业的时代

这是一个快速发展的时代,随着互联网的普及,数据成指数倍增长,相同类型的企业也如雨后春笋般越来越多!那么如何在这个快速发展的时代,脱颖而出,把握时代的脉搏呢?答案就是:建立自己企业的大数据!提高企业的生存和竞争力,大数据无疑是一把利剑,通过数据分析,不仅可以让你知己知彼,更可以让自己的企业决胜千里之外,使企业在与同行竞争中,更具竞争力的一大利器,用的好,甚至能碾压竞争对手.大数据近年的崛起和发展已经初现其巨大的作用,据分析拥有优秀大数据能力的企业,做出正确决策的可能性高出竞争对手3倍.决策速度比竞

如何选择一个好用的企业邮箱

在高度信息化的今天,企业邮箱成为了商务洽谈.内部沟通不可缺少的一环.如何选择一个好用的企业邮箱,安全性.便捷性.能否满足多场景的办公需求等均尤为重要.今天小邮从以下几个维度重点说明.用户体验便捷性对企业客户而言,收发信的速度及体验.系统是否安全.服务人员的响应速度等是我们考量的基础要素.TOM企业邮箱优化发信体验,支持邮件密送.撤回.群发单显.回执等实用功能,可以帮助企业轻松办公,拥有便捷体验. 邮箱安全性邮箱安全问题向来是用户最关心的问题之一,主要体现在邮箱的防病毒防***能力和对邮件的加密功

简信CRM分享:个性定制化CRM,完美契合企业需求

随着信息技术的高速发展,企业信息化的建设要求也随之增高,不少企业希望能找到可以完美匹配自己管理手段及业务模式的产品,又希望产品可以应对未来的业务发展. 对于具有个性化需求的企业,定制开发一套专属的CRM系统是最好的解决办法了.以下给大家列举需要定制CRM系统的四大理由. 一.商业策略由于各行各业.各家企业需求不一,很难使用标准化的CRM系统满足各个企业的发展需求.除此,大家都知道定制CRM系统是为了企业更好的管理客户,服务好客户而进行开发的一款软件,因此不仅仅是一个软件,还是一个企业实力的综合反

COM是一个更好的C++

昨天看了<COM本质论>的第一章"COM是一个更好的C++",觉得很有必要做一些笔记,于是整理成这篇文章,我相信你值得拥有. 这篇文章主要讲的内容是:一个实现了快速查找功能的类FastString,在一个小小的需求之后,慢慢的演变成一个COM组件的过程. 类FastString实现了一个快速查找字符串的功能,快到时间复杂度是O(1),我们先不管作者是怎么实现的,估计是通过空间换时间.由于这个类查找字符串很快,于是作者就把这个类当做一个产品,以源码的方式卖给需要的厂商,厂商用

作为产品人,如何更好的应对需求变更?

如何制定一份缜密的项目计划对于产品经理来说可能并不是项目中最难的事情,要应对计划之外的情况,才是最令大家头痛的地方.在项目实际推进过程中,不加控制的需求变更往往给项目带来沉重的负担和无法预料的风险.因此,设计一套合适的需求变更管理流程和规范,对项目和项目经理而言都是不可或缺的. 问题分析 首先对笔者所在项目做一个简单介绍:产品层面,我们是一个C端产品,需求主要来源于运营和策划,就产品阶段而言正处于转型期,现阶段主要以新功能探索为主:项目层面,由于功能较为复杂庞大,可切割空间不大,因此每个版本周期

《COM本质论》COM是一个更好的C++心得分享

昨天看了<COM本质论>的第一章"COM是一个更好的C++",认为非常有必要做一些笔记,于是整理成这篇文章.我相信你值得拥有. 这篇文章主要讲的内容是:一个实现了高速查找功能的类FastString,在一个小小的需求之后,慢慢的演变成一个COM组件的过程. 类FastString实现了一个高速查找字符串的功能.快到时间复杂度是O(1),我们先无论作者是怎么实现的,预计是通过空间换时间. 因为这个类查找字符串非常快,于是作者就把这个类当做一个产品,以源代码的方式卖给须要的厂商

企业需求管理面临困境,oBridge顺势诞生!

1   软件需求管理应用平台 1.1引言 作为一位软件企业或研发团队的领导,您是否在为没有完整的需求工程解决方案而苦恼?如果您是一名项目经理,是否经常因软件需求问题影响开发质量和进程?您的需求团队成员(需求设计人员.需求实施者,需求分析人员)是否在为各种软件需求的带来的问题阻碍了项目进度? 他们开始抱怨,甚至吐槽: ?没有一个完整成熟的需求工程执行过程和管理机制,需求工作无序进行: ?曾尝试需求管理软件来实现一些自动化的需求工作流程,但主流需求管理工具过于复杂,无从下手: ?没有需求工程文档模板

自定义一个更好用的SwipeRefreshLayout(弹力拉伸效果详解)(转载)

转自: 自定义一个更好用的SwipeRefreshLayout(弹力拉伸效果详解) 前言 熟悉SwipeRefreshLayout的同学一定知道,SwipeRefreshLayout是android里面专为RecyclerView,NestedScrollView提供下拉刷新动画的一个控件.可是在使用过程中有些局限性,例如只支持上述控件,不支持ListView,GridView等,另外下拉的动画效果很难更改,而且不支持上拉加载--在很多场景的情况下往往不符合我们的需求. 今天为大家分享的是一个支