如何才能让数仓构建成本降低80%,维护成本降低70%?

构建数据仓库的核心是建模,在数据仓库的构建中,ETL贯穿于项目始终,它是整个数据仓库的生命线。从数据源中抽取数据,然后对这些数据进行转化,最终加载到目标数据库或者数据仓库中去,这也就是我们通常所说的 ETL 过程(Extract,Transform,Load)。

通常数据抽取工作分抽取、清洗、转换、装载几个步骤:

抽取主要是针对各个业务系统及不同服务器的分散数据,充分理解数据定义后,规划需要的数据源及数据定义,制定可操作的数据源,制定增量抽取和缓慢渐变的规则。

清洗主要是针对系统的各个环节可能出现的数据二义性、重复、不完整、违反业务规则等数据质量问题,允许通过数据抽取设定的数据质量规则,将有问题的记录先剔除出来,根据实际情况调整相应的清洗操作。

转换主要是针对数据仓库建立的模型,通过一系列的转换来实现将数据从业务模型到分析模型,通过ETL工具可视化拖拽操作可以直接使用标准的内置代码片段功能、自定义脚本、函数、存储过程以及其他的扩展方式,实现了各种复杂的转换,并且支持自动分析日志,清楚的监控数据转换的状态并优化分析模型。

装载主要是将经过转换的数据装载到数据仓库里面,可以通过直连数据库的方式来进行数据装载,可以充分体现高效性。在应用的时候可以随时调整数据抽取工作的运行方式,可以灵活的集成到其他管理系统中。

SEDWA高效数据仓库处理平台为整个 ETL 过程提供了一个可视化的开发,测试,生产环境,它是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化和高效数据处理,并将其输出数据仓库或语义模型的数仓高效构建平台。一个功能强大易用的数据仓库构建平台应该具备以下能力:

一.    数据源连接能力:

ETL工具的数据源连接能力是非常重要的,这将直接决定它能够应用的范围。SEDWA能够直接连接非常多的数据源,包括:

1、      文本文件

2、      Excel数据源

3、      主流数据库类型:SQL、MySQL、Oracle、DB2

4、      通用连接器:ADO.NET、OLEDB、ODBC、CDATA

5、      智能适配器:金蝶数据源、用友数据源等行业软件适配

二.    并行运行能力:

SEDWA可以支持并行任务运行能力,执行引擎自动判断任务的先后顺序。机器学习可以自动优化并学习提供最优执行方案。这也是传统的手工编码方式难以做到的。这样,SEDWA就可以充分利用硬件资源。而且,当你的硬件资源升级的时候也不用修改已经开发好的ETL 调度任务,只需要修改执行方案的配置信息。并行执行能力是SEDWA所能处理数据的速度可以得到很大的提升,轻松处理大量数据。

三.    强大易用的开发环境:

SEDWA开发环境是基于 C/S 模式的,构建数据仓库全程可视化拖拽操作。核心功能如下:

1、      多数据源与智能适配

多种数据源一键接入,并提供多种插件帮助您对接最流行的源系统(如国内的金蝶、用友以及各行业业务系统),简单快速方便的获取您想要的数据

2、      团队协作与版本控制

帮助多人在同一个项目上进行协作,另外还加入版本控制,记录项目内的所有对象的状态,在发生错误时快速回滚到之前任何一个版本,极大的提升项目开发进度及有效的管控项目质量

3、      智能引擎与机器学习

内置的智能执行引擎,让您可以获得更快执行速度、更敏捷的项目变更以及最佳的性能,机器学习在每次执行项目时都会进行对象顺序优化分析,确保ETL工作高效运转

4、      增量抽取和历史跟踪

增量抽取和缓慢简渐变作为数据仓库开发最棘手的问题,您只需简单几步操作即可启用,我们利用独特优化模型帮助您快速设置增量抽取规则和创建缓慢渐变维度,同时这一切完全遵循维度建模理论

5、      代码片段

代码片段模板,让所有重复的输入工作一次输入,多次使用。如指标的同比、环比等,我们内置了数据处理,指标计算等常用模板,让这一切成为您高效数据处理的加速度

6、      多环境管理

开发、测试环境、生产环境之间通过使用差异化部署技术,仅重新部署已经修改了的或者只部署当前环境中所需的必要更改,真正帮助您完成数据仓库的持续集成,持续开发,持续部署

7、      血缘和影响分析

血缘分析帮助您你轻松回答:‘我正在查看的报告数据来源是什么?‘以及‘对当前分析的数据应用了哪些转换处理?‘等问题,影响分析可以让您轻松应对变更可能产生的影响,自动识别与其相关的依赖项和潜在的影响还可以跟踪所有对象及其依赖关系,最后我们还提供数据全生命周期的可视化显示

8、      数据质量及安全

数据质量跟踪功能根据设定的规则帮助您过滤出有问题的数据,并智能分析数据质量缺陷,另外还内置安全机制,极大降低数据安全管控成本,帮助您快速设置用访问权限,确保经过身份验证的用户仅访问他们有权查看的数据

9、      语义模型

业务用户在自助服务分析中面临的挑战之一是他们不是很了解数据仓库从而无法正确解释数据,语义层建模功能,使用易于业务用户理解的描述来转换数据,并可实现一键分发到多个BI可视化前端

四、项目维护能力

做项目时大家都知道应对客户的需求变更是最让人头疼的事情。BI项目需求的变更很有可能会推翻之前辛辛苦苦编写的大量SQL抽取逻辑。使用SEDWA完全不用担心这些问题,客户需求变更只需要在可视化的界面拖拽就可以完成抽取逻辑,项目任何的需求修改都只需要拖拽处理数据后部署执行即可完成项目的调整,无需编写代码。轻松应对需求变更,降低维护成本。

想要了解更多详细请观看视频:SEDWA核心功能

体验SEDWA产品地址:体验SEDWA核心功能

欢迎加入PowerBI高效数据处理ETL交流群:684598807

原文地址:https://www.cnblogs.com/softeasy/p/11302292.html

时间: 2024-08-30 07:39:23

如何才能让数仓构建成本降低80%,维护成本降低70%?的相关文章

【云+社区极客说】新一代大数据技术:构建PB级云端数仓实践

本文来自腾讯云技术沙龙,本次沙龙主题为构建PB级云端数仓实践 在现代社会中,随着4G和光纤网络的普及.智能终端更清晰的摄像头和更灵敏的传感器.物联网设备入网等等而产生的数据,导致了PB级储存的需求加大. 但数据保留下来并不代表它真的具有利用价值,曾经保存的几TB的日志,要么用来做做最简单的加减乘除统计,要么就在日后出现问题了,扒出日志堆找证据.你的影视库里面可以下载储存成千上万部影片,但不代表你真的能全部看完. 如何将手里现有的数据变得更具有价值?一些营销云已经可以做到毫秒级响应做到精准投放广告

干货:解码OneData,阿里的数仓之路。

免费开通大数据服务:https://www.aliyun.com/product/odps 据IDC报告,预计到2020年全球数据总量将超过40ZB(相当于4万亿GB),这一数据量是2013年的10倍.正在"爆炸式"增长的数据的潜在巨大价值正在被发掘,它有可能成为商业世界的"新能源",变革我们的生产,影响我们生活.当我们面对如此庞大的数据之时,如果我们不能有序.有结构的进行分类组织和存储,那么在价值被发现前,也许数据成本灾难已经来临.它犹如堆积如山的垃圾,给我们企业

调度、模型、同步与任务——阿里云大数据数仓建设性能优化方案

摘要:对于阿里云大数据数仓建设性能优化而言,主要可以从调度优化.模型优化.同步优化以及任务优化这四个方面着手.其实,对于性能优化而言,最终还是会归结到"资源"之上,所以资源是否足够,分配是否合理也是我们在进行性能优化时必须考虑的关键所在. 本文将主要围绕以下四个方面进行介绍:调度优化.模型优化.同步优化以及任务优化.对于调度优化而言,将分享任务调度如何进行优化,以及如何看到调度的瓶颈点,以及在初步进行建设和使用数据仓库的任务之后,对于任务如何进行调整来满足业务的时间要求.对于模型优化而

企业大数据平台下数仓建设思路

免费开通大数据服务:https://www.aliyun.com/product/odps 介然(李金波),阿里云高级技术专家,现任阿里云大数据数仓解决方案总架构师.8年以上互联网数据仓库经历,对系统架构.数据架构拥有丰富的实战经验,曾经数据魔方.淘宝指数的数据架构设计专家. 与阿里云大数据数仓结缘 介然之前在一家软件公司给企业客户做软件开发和数仓开发实施,数仓开发和实施都是基于传统的基础架构.2008年加入阿里进入淘宝数据平台部后,他开始接触分布式计算平台Hadoop. 初始时在Hadoop平

数仓模型示例

数仓模型案例一.范式建模1.零范式为便于分级说明三范式的特点,我们将不满足任何范式即无范式的数据称为零范式,假设它只满足一个最基本的条件--数据中不存在重复数据.假设根据零范式的定义数据库中有一张保险订单统计表,表中包含了用户id.保险id.用户名.注册省份.注册城市.注册区县.保险名称.购买信息(价格.数量).总保费.购买日期.具体情况如下图:2.一范式在零范式的基础上加上字段具有原子性即属性不可分这个条件后便形成了符合一范式的表.基于上面的保险订单统计表一范式和零范式的区别主要在于将表中的"

OTN交换& P-OTN有效降低100G 网络成本 (二)

OTN交换& P-OTN有效降低100G 网络成本 (二) 全球范围来看,移动及互联网流量的增长速度是空前的,导致此现象的缘由包括云服务的增长.移动宽带和基于互联网的视频点播服务的增长.Cisco预计,从2012至2017年,全球互联网IP流量将增至三倍,达到每月120艾字节,而移动数据流量将增长13倍,达到每月逾11艾字节[i].贝尔实验室则预计,在同一时间区段,城域及骨干网的流量分别将增长560%和360%[ii].如此高速的带宽增长为作为当前IP网络基石的光传送网带来了难以想像的压力.由于

数仓简介

数据仓库之父比尔·恩门(Bill Inmon)在1991年出版的"Building the Data Warehouse"(<建立数据仓库>)一书中所提出的定义被广泛接受,数据仓库是一个面向主题的(Subject Oriented).集成的(Integrate).相对稳定的(Non-Volatile).反映历史变化(Time Variant)的数据集合,用于支持管理决策. OLTP:on-line transaction proccessing,联机事务处理,主要是业务数据

保险数仓建设-kimball

一.  背景: 1. 部门经过一轮的重大变化,对目前的数据提出了新的要求,其中之一就是要做业务数仓. 2. 经过和leader的沟通,从业务层面,时间层面,人力层面出发,最终还是使用维度建模的方式来实现,实现的内容更多的是个数据集市或者业务数仓. 二. 经过: 1. 整个建设流程分为如下几个:a. 业务流程的梳理和规划. b. 业务数据的梳理. c. 业务指标和维度的梳理. d. 数仓框架设计,层次设计,维表设计,事实表设计. e. 数仓开发. f. 结果的输出,指标的输出. 三. 问题和总结:

在HUE中将文本格式的数据导入hive数仓中

今天有一个需求需要将一份文档形式的hft与fdd的城市关系关系的数据导入到hive数仓中,之前没有在hue中进行这项操作(上家都是通过xshell登录堡垒机直接连服务器进行操作的),特此记录一下. -- step1 -- 创建表(注意表的存储格式) create table if not exists edw_public.dim_edw_pub_hft_fdd_city_rel_info( hft_city_id bigint comment '好房通城市id', hft_city_name