奇点云数据中台技术汇(一) DataSimba——企业级一站式大数据智能服务平台

在这个“数据即资产”的时代,大数据技术和体量都有了前所未有的进步,若企业能有效使用数据,让数据赚钱,这必将成为企业数字化转型升级的有力武器。

奇点云自研的一站式大数据智能服务平台——DataSimba,旨在提供数据采集、数据加工、数据治理、数据规范、数据资产、数据服务等全链路的产品+技术+方法论服务,构建面向业务应用的大数据智能平台。其主要核心模块包括了数据开发套件、数据治理套件、数据服务引擎、数据智能、数据安全。

1、数据采集

数据采集作为数据中台第一个环节,不仅仅是要“采集”,也要将数据合理的“存”起来。DataSimba数据采集研发了两套采集工具,一套是批量采集DataX,一套是实时采集DataS。

DataX为批量离线采集工具,支持市面上基本所有的关系型DB、NoSQL等数据库。

DataS为实时的在线采集工具,支持关系型DB的操作日志的实时读取,如MySQL的binlog,也支持网页埋点的服务日志的实时读取。

2、数据开发

数据开发套件作为产品的核心模块,底层是基于hadoop开源生态圈中的Hive、Spark、Flink、Impala为计算引擎,以Hdfs、Hbase、kudu为分布式存储,为数据开发、数据分析、数据挖掘、算法工程师提供了一套可视化开发界面。开发人员可在开发套件上做一站式开发,包括可视化数据同步配置、创建各种开发任务(包括实时任务和离线任务)、数据建模、调度配置、运维监控等,大大地提高了开发人员的开发效率。同时开发套件实时采集了数据表的元信息、表级、字段级的血缘关系,为数据地图提供了丰富的元数据。

3、数据治理

数据治理套件主要围绕开发完成的数据进行一系列的数据质量监控、数据规范定义、数据元信息展示。一方面提供了多种规则模板,监控各个环节任务产出的数据质量,每天定时产出数据质量检测报告,让数据开发对数据的质量做到心中有数,可以及时地修正脏数据;其次提供了元数据管理,形成全局数据地图,分析数据血缘,数据影响,为数据开发与维护提供支撑;最后还帮助开发人员制定一系列的数据标准进行名称、指标、维度的设计规范,统一口径,消除二义性。然后利用数学统计、机器学习、深度挖掘等大数据技术构建企业的标签体系,把原始数据加工成企业可阅读易理解的标签体系,并且应用在不同的业务场合中,帮助企业解决痛点,提升商业价值。

4、数据服务

数据服务引擎打通了应用方和数据的通道,可以让数据紧密的跟业务结合在一起,加速数据业务化过程。传统的数据仓库,通常在已有N个维度中随机挑选几个维度进行大数据量的聚合操作,返回结果集非常缓慢,OLAP引擎可以支持大数据量多维度查询秒级结果返回,大大地提高了工作效率;另一方面传统数仓在报表类数据展示上花费了很大的人力和物力,而且非常难维护开发好的接口,数据API通过可视化模式快速生成接口,并且建立起接口元信息,方便以后的维护,只需要轻松修改下接口元信息即可满足前方业务的变动,而且数据API还提供了接口访问信息的采集与监控,让业务方可以及时地感知到接口的使用情况。

5、数据安全

数据安全可以帮助企业建立数据安全体系。数据安全在数据访问、数据流动、数据运维等几个关键环节中都加入了身份认证和权限访问控制,通过网络传输加密、高可靠的数据存储、敏感数据脱敏、日志审计、事件溯源、高危操作拦截等功能来保障企业数据的稳定性和安全性。

6、数据模型

好的数据模型,是高内聚低耦合的设计,是可以满足未来业务发展的扩展性。当然也不能过度设计,够用的同时兼顾扩展性。

数据模型设计是一套方法论加上对业务的深刻理解,将业务高度抽象成的多维数据模型结构,模型的数量与复杂度与业务强相关,如大家都比较熟悉的电商业务,按业务过程来切分,可设计为流量数据模型、收藏数据模型、加购数据模型、交易数据模型等。

7、业务模型

前面的业务创新智能化提到,围绕节本增效,业务通过融合后的全域数据、算法技术,将业务经验与数据智能相结合,为运营提高决策效率,如智能选品模型;为业务提升经济价值,如智能折扣模型;为后端部门减少成本,如智能排班模型。

DataSimba作为企业级一站式大数据智能服务平台,产品体系和服务能力随着业务场景不断升级迭代,现已在商业综合体、大时尚、医药、酒类等领域投入使用,实现数据化企业运营,帮助企业能够真正盘活数据资产,创造更多的商业价值!

原文地址:https://blog.51cto.com/14210996/2392550

时间: 2024-10-14 05:18:30

奇点云数据中台技术汇(一) DataSimba——企业级一站式大数据智能服务平台的相关文章

奇点云数据中台技术汇(一)DataSimba——企业级一站式大数据智能服务平台

在这个“数据即资产”的时代,大数据技术和体量都有了前所未有的进步,若企业能有效使用数据,让数据赚钱,这必将成为企业数字化转型升级的有力武器. 奇点云自研的一站式大数据智能服务平台——DataSimba,旨在提供数据采集.数据加工.数据治理.数据规范.数据资产.数据服务等全链路的产品+技术+方法论服务,构建面向业务应用的大数据智能平台.其主要核心模块包括了数据开发套件.数据治理套件.数据服务引擎.数据智能.数据安全. 1.数据采集 数据采集作为数据中台第一个环节,不仅仅是要“采集”,也要将数据合理

数据中台技术汇(二)| DataSimba系列之数据采集平台

继上期数据中台技术汇栏目发布DataSimba--企业级一站式大数据智能服务平台,本期介绍DataSimba的数据采集平台. DataSimba采集平台属于DataSimba的数据计算及服务平台的一部分, 负责数据的导入, 从而支持上层的数据处理. DataSimba的定位是面向企业私有化部署,决定了采集平台面临要解决的问题和传统的互联网公司不太一样: 1.企业使用的数据库类型多且杂, 包括很多非主流的数据库: 2.企业的数据管理水平参差不齐, 依赖数据规范(如:维护列modify_time判断

奇点云数据中台技术汇(四)| DataSimba系列之流式计算

你是否有过这样的念头:如果能立刻马上看到我想要的数据,我就能更好地决策? 市场变化越来越快,企业对于数据及时性的需求,也越来越大,另一方面,当下数据容量呈几何倍暴增,数据的价值在其产生之后,也将随着时间的流逝,逐渐降低.因此,我们最好在事件发生之后,迅速对其进行有效处理,实时,快速地处理新产生的数据,帮助企业快速地进行异常管理和有效决策,而不是待数据存储在一起之后,再进行批量处理. 一:sparkStreaming+hbase整合应用,助力企业实时运营监控 对于不作更新的数据,可以通过datax

数据中台技术汇 | DataSimba系列之流式计算

你是否有过这样的念头:如果能立刻马上看到我想要的数据,我就能更好地决策? 市场变化越来越快,企业对于数据及时性的需求,也越来越大,另一方面,当下数据容量呈几何倍暴增,数据的价值在其产生之后,也将随着时间的流逝,逐渐降低.因此,我们最好在事件发生之后,迅速对其进行有效处理,实时,快速地处理新产生的数据,帮助企业快速地进行异常管理和有效决策,而不是待数据存储在一起之后,再进行批量处理. 一:sparkStreaming+hbase整合应用,助力企业实时运营监控 对于不作更新的数据,可以通过datax

奇点云数据中台技术汇(三)| DataSimba系列之计算引擎篇

随着移动互联网.云计算.物联网和大数据技术的广泛应用,现代社会已经迈入全新的大数据时代.数据的爆炸式增长以及价值的扩大化,将对企业未来的发展产生深远的影响,数据将成为企业的核心资产.如何处理大数据,挖掘大数据的价值,让大数据为企业的发展保驾护航,将是未来信息技术发展道路上关注的重点. 传统的数据处理方式通常是将数据导入至专门的数据分析工具中,这样会面临两个问题:1.如果源数据非常大时,往往数据的移动就要花费较长时间.2.传统的数据处理工具往往是单机模型,面对海量数据时,数据处理的时间也是一个很大

奇点云数据中台技术汇(六)| 智能算法助力企业效率升级

移动生产力和传统企业困境 纵观历次生产力革命,都是从生产者的技术革新开始,最后波及到消费者.几次工业革命中,能源和制造工艺的升级极大地提高了生产效率,并且创造了大量的新工种,最终提升了消费者的生活质量,促进一轮又一轮的消费升级.最近的信息技术革命,互联网最先使用在国外的大型工业产业,之后普及到社会生活中,才带来了无数次的生产力提升的机会和挑战. 然而,移动互联网生产力的产生和发展却不同,它产生于消费端而不是生产端.移动互联网生产力带来了两个核心能力: 1. 分布式,去中心化 2. 缩短信息传播路

奇点云数据中台技术汇(九)| 如何建设数据安全体系?

数据安全是实现隐私保护的最重要手段之一.数据安全并不是一个独立的要素,而是需要连同网络安全.系统安全.业务安全等多种因素,只有全部都做好了,才能最终达到数据安全的效果. 随着AI.DT时代的来临,传统企业越来越重视数据,并逐步的开始对内部数据的进行互联,其核心是通过数据的集成.同步,来连接各个业务系统的流程以及通过对数据的二次加工,创造更大的价值. 本质上,数据作为一种生产资料,加入到企业的生产过程中,并成为重要的能源.但数据本身,在生产过程中可能因人为管理的不善.生产过程的控制不善带来各类风险

奇点云数据中台技术汇 | 数据治理——企业数字化转型的基石

1 为什么要进行数据治理? 首先,数据是有价值的.根据埃森哲发布的"2035年之前各行业的平均GDP增长率",单纯看自然增长,制造行业只有2.1%,但是通过数据以及由此衍生出来的人工智能加成之后,这个数字就晋升到第二名4.4%,数据的价值是相当可观的. 但是,数据的应用环境是有风险的.Facebook的个人隐私泄露事件,直接导致Facebook市值缩水640亿美元,扎克伯格也受到国会质询. 此外,数据的应用环境是低效的.为什么数据的应用环境是低效的?一是数据不可知,用户不知道自己有哪些

数据中台技术汇 | 智能算法助力企业效率升级

移动生产力和传统企业困境 纵观历次生产力革命,都是从生产者的技术革新开始,最后波及到消费者.几次工业革命中,能源和制造工艺的升级极大地提高了生产效率,并且创造了大量的新工种,最终提升了消费者的生活质量,促进一轮又一轮的消费升级.最近的信息技术革命,互联网最先使用在国外的大型工业产业,之后普及到社会生活中,才带来了无数次的生产力提升的机会和挑战. 然而,移动互联网生产力的产生和发展却不同,它产生于消费端而不是生产端.移动互联网生产力带来了两个核心能力: 分布式,去中心化 缩短信息传播路径 在消费端