数据中台技术汇 | DataSimba系列之流式计算

你是否有过这样的念头:如果能立刻马上看到我想要的数据,我就能更好地决策?

市场变化越来越快,企业对于数据及时性的需求,也越来越大,另一方面,当下数据容量呈几何倍暴增,数据的价值在其产生之后,也将随着时间的流逝,逐渐降低。因此,我们最好在事件发生之后,迅速对其进行有效处理,实时,快速地处理新产生的数据,帮助企业快速地进行异常管理和有效决策,而不是待数据存储在一起之后,再进行批量处理。

一:sparkStreaming+hbase整合应用,助力企业实时运营监控

对于不作更新的数据,可以通过datax将数据从业务系统数据库同步到hive中,进行离线计算;但对于有大量更新的数据,就不能采用以上的做法了,因为hive不能很好的支持实时更新操作。我们的做法是使用sparkStreaming+HBase做数据存储与去重,然后以封装的HBase工具类为支撑,进行数据的实时监控。

实现原理:
Apache Spark是专为大规模数据处理而设计的分布式内存计算引擎,特点是灵活快速。HBase是一个分布式的、面向列的开源数据库,适用于海量数据的存储与实时写入。HBase工具类是奇点云大数据团队针对Spark与HBase自研的高性能HBase读写工具,它是在HBase官方API基础上依据奇点云特有的需求场景进行了二次开发,内部提供了诸多与Spark紧密结合的API,它的诞生极大地提高了Spark对Hbase的读写速度。经测试,比Spark原生的HBase API性能提高3倍以上,平均开发效率提升10倍以上。正因为HBase工具类的诞生,才促进了Spark与HBase在奇点云的大规模应用。

整体架构:
通过mysql的Canal(canal是阿里巴巴旗下的一款开源项目,纯Java开发。基于数据库增量日志解析,提供增量数据订阅&消费)将数据实时投递到kafka中,交由Spark Streaming分批实时消费处理,经过数据清洗、处理与转换,使用HBase工具类将数据逐批写入到HBase中,完成数据的实时同步与更新。

应用场景:
Spark与HBase广泛应用于实时数据写入、统计抽取、历史数据归档、海量数据的实时判断等方面。

·实时数据写入
Spark作为分布式实时计算的佼佼者,擅长海量数据的实时计算。我们通过Spark Streaming将消费到的含有大量更新操作的数据进行清洗、分析与计算,最终以事先设计好的规则实时写入到HBase中,HBase会自动维护重复的数据(rowKey设计原则)。

·海量数据实时判断
在某些场景下,我们需要对历史(一个月以前)的数据进行实时的判断、对比与更新。由于数据量大,且实时性较高,redis或传统的关系型数据库并不能很好的满足要求。对于这种需求,我们对Spark Streaming程序架构进行了梳理,并对HBase相关的API进行了二次开发,最终满足了以上的需求。

某大型商业综合体客户案例
客户背景:
客户为国内某核心商业综合体公司,主营城市核心商业购物中心,对于大型商业购物中心而言,如何实时采集当前进出客流人数、行走动线及热力轨迹、实现数据拉通能力是大型商业购物中心进行业务数字化运营,用户洞察与体验优化的基础。

奇点云的解决方案帮助客户实现了:
1: 实时数据从无到有(原来并不具备实时数据采集能力)
2: t+0实时数据采集(原来仅具有少量离线数据的T+1以上的事后追溯分析能力)
3: 实时客流监控 (今日客流人数,当前在场人数,今日到场次数,平均逗留时长,店铺客流热度,顾客性别与年龄占比,商场黑名单实时预警,客流热力分析,客流动线分析……)
4: 经过实时处理,获得有价值的信息帮助商场快速的做出决策能力(从滞后的经验型追溯分析,到基于现场监控数据的实时运营决策)

二:sparkStreaming+kudu+impala整合应用,助力企业实时多维分析


在Kudu出现之前,Hadoop生态环境中的储存主要依赖HDFS和HBase,追求高吞吐批处理的用例中使用HDFS,追求低延时随机读取用例下用HBase,而Kudu正好能兼顾这两者:

?Kudu的设计使它与众不同:
?快速处理OLAP(Online Analytical Processing)任务;
?集成MapReduce、Spark和其他Hadoop环境组件;
?与Impala高度集成,使得这成为一种高效访问交互HDFS的方法;
?在执行同时连续随机访问时表现优异;
?高可用性,tablet server和master利用Raft Consensus算法保证节点的可用。

?常见的应用场景:
?刚刚到达的数据就马上要被终端用户使用访问到;
?同时支持在大量历史数据中做访问查询和某些特定实体中需要非常快响应的颗粒查询;
?基于历史数据使用预测模型来做实时的决定和刷新;
?要求几乎实时的流输入处理。

整体架构:
将数据实时投递到kafka中,交由Spark Streaming分批实时消费处理,经过数据清洗、处理与转换,使用kudu工具类将数据逐批写入到kudu中,完成数据的实时同步与更新。

某服饰客户案例
客户背景:
客户为国内某大型服饰品牌,以直营为主,数据情况较好,每天的业务订单量及多张维表数据量不断攀升, 原来的oracle数据库已支持不起庞大业务数据的多条件实时查询,在奇点云介入服务后,企业迫不及待提出了多维度即席查询的需求。
奇点云的解决方案帮助客户实现了:
1: 实时数据从oracle切换到kudu;
2: t+0实时数据采集(从原来的T+1的离线计算到现在的实时计算);
3: 实时订单多维分析 (从原来的多张表关联及30个条件多维度查询,查询不出来到现在的1分钟内出结果);
4: 经过实时分析 (多维度即席查询),获得有价值的信息帮助领导层快速的做出决策力。

流计算秉承一个基本理念,当事件出现时就应该立即进行处理,而不是缓存起来进行批量处理。不同于现有的离线计算,流计算全链路整体上更加强调数据的实时性,包括数据实时采集、数据实时计算、数据实时集成。

原文地址:https://blog.51cto.com/14386859/2410686

时间: 2024-10-09 18:53:38

数据中台技术汇 | DataSimba系列之流式计算的相关文章

奇点云数据中台技术汇(四)| DataSimba系列之流式计算

你是否有过这样的念头:如果能立刻马上看到我想要的数据,我就能更好地决策? 市场变化越来越快,企业对于数据及时性的需求,也越来越大,另一方面,当下数据容量呈几何倍暴增,数据的价值在其产生之后,也将随着时间的流逝,逐渐降低.因此,我们最好在事件发生之后,迅速对其进行有效处理,实时,快速地处理新产生的数据,帮助企业快速地进行异常管理和有效决策,而不是待数据存储在一起之后,再进行批量处理. 一:sparkStreaming+hbase整合应用,助力企业实时运营监控 对于不作更新的数据,可以通过datax

数据中台技术汇(二)| DataSimba系列之数据采集平台

继上期数据中台技术汇栏目发布DataSimba--企业级一站式大数据智能服务平台,本期介绍DataSimba的数据采集平台. DataSimba采集平台属于DataSimba的数据计算及服务平台的一部分, 负责数据的导入, 从而支持上层的数据处理. DataSimba的定位是面向企业私有化部署,决定了采集平台面临要解决的问题和传统的互联网公司不太一样: 1.企业使用的数据库类型多且杂, 包括很多非主流的数据库: 2.企业的数据管理水平参差不齐, 依赖数据规范(如:维护列modify_time判断

奇点云数据中台技术汇(三)| DataSimba系列之计算引擎篇

随着移动互联网.云计算.物联网和大数据技术的广泛应用,现代社会已经迈入全新的大数据时代.数据的爆炸式增长以及价值的扩大化,将对企业未来的发展产生深远的影响,数据将成为企业的核心资产.如何处理大数据,挖掘大数据的价值,让大数据为企业的发展保驾护航,将是未来信息技术发展道路上关注的重点. 传统的数据处理方式通常是将数据导入至专门的数据分析工具中,这样会面临两个问题:1.如果源数据非常大时,往往数据的移动就要花费较长时间.2.传统的数据处理工具往往是单机模型,面对海量数据时,数据处理的时间也是一个很大

奇点云数据中台技术汇(一)DataSimba——企业级一站式大数据智能服务平台

在这个“数据即资产”的时代,大数据技术和体量都有了前所未有的进步,若企业能有效使用数据,让数据赚钱,这必将成为企业数字化转型升级的有力武器. 奇点云自研的一站式大数据智能服务平台——DataSimba,旨在提供数据采集.数据加工.数据治理.数据规范.数据资产.数据服务等全链路的产品+技术+方法论服务,构建面向业务应用的大数据智能平台.其主要核心模块包括了数据开发套件.数据治理套件.数据服务引擎.数据智能.数据安全. 1.数据采集 数据采集作为数据中台第一个环节,不仅仅是要“采集”,也要将数据合理

奇点云数据中台技术汇(一) DataSimba——企业级一站式大数据智能服务平台

在这个"数据即资产"的时代,大数据技术和体量都有了前所未有的进步,若企业能有效使用数据,让数据赚钱,这必将成为企业数字化转型升级的有力武器. 奇点云自研的一站式大数据智能服务平台--DataSimba,旨在提供数据采集.数据加工.数据治理.数据规范.数据资产.数据服务等全链路的产品+技术+方法论服务,构建面向业务应用的大数据智能平台.其主要核心模块包括了数据开发套件.数据治理套件.数据服务引擎.数据智能.数据安全. 1.数据采集 数据采集作为数据中台第一个环节,不仅仅是要"采

奇点云数据中台技术汇(六)| 智能算法助力企业效率升级

移动生产力和传统企业困境 纵观历次生产力革命,都是从生产者的技术革新开始,最后波及到消费者.几次工业革命中,能源和制造工艺的升级极大地提高了生产效率,并且创造了大量的新工种,最终提升了消费者的生活质量,促进一轮又一轮的消费升级.最近的信息技术革命,互联网最先使用在国外的大型工业产业,之后普及到社会生活中,才带来了无数次的生产力提升的机会和挑战. 然而,移动互联网生产力的产生和发展却不同,它产生于消费端而不是生产端.移动互联网生产力带来了两个核心能力: 1. 分布式,去中心化 2. 缩短信息传播路

数据中台技术汇 | 智能算法助力企业效率升级

移动生产力和传统企业困境 纵观历次生产力革命,都是从生产者的技术革新开始,最后波及到消费者.几次工业革命中,能源和制造工艺的升级极大地提高了生产效率,并且创造了大量的新工种,最终提升了消费者的生活质量,促进一轮又一轮的消费升级.最近的信息技术革命,互联网最先使用在国外的大型工业产业,之后普及到社会生活中,才带来了无数次的生产力提升的机会和挑战. 然而,移动互联网生产力的产生和发展却不同,它产生于消费端而不是生产端.移动互联网生产力带来了两个核心能力: 分布式,去中心化 缩短信息传播路径 在消费端

奇点云数据中台技术汇(九)| 如何建设数据安全体系?

数据安全是实现隐私保护的最重要手段之一.数据安全并不是一个独立的要素,而是需要连同网络安全.系统安全.业务安全等多种因素,只有全部都做好了,才能最终达到数据安全的效果. 随着AI.DT时代的来临,传统企业越来越重视数据,并逐步的开始对内部数据的进行互联,其核心是通过数据的集成.同步,来连接各个业务系统的流程以及通过对数据的二次加工,创造更大的价值. 本质上,数据作为一种生产资料,加入到企业的生产过程中,并成为重要的能源.但数据本身,在生产过程中可能因人为管理的不善.生产过程的控制不善带来各类风险

奇点云数据中台技术汇 | 数据治理——企业数字化转型的基石

1 为什么要进行数据治理? 首先,数据是有价值的.根据埃森哲发布的"2035年之前各行业的平均GDP增长率",单纯看自然增长,制造行业只有2.1%,但是通过数据以及由此衍生出来的人工智能加成之后,这个数字就晋升到第二名4.4%,数据的价值是相当可观的. 但是,数据的应用环境是有风险的.Facebook的个人隐私泄露事件,直接导致Facebook市值缩水640亿美元,扎克伯格也受到国会质询. 此外,数据的应用环境是低效的.为什么数据的应用环境是低效的?一是数据不可知,用户不知道自己有哪些