数仓简介

数据仓库之父比尔·恩门(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《建立数据仓库》)一书中所提出的定义被广泛接受,数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策

OLTP:on-line transaction proccessing,联机事务处理,主要是业务数据,需考虑高并发,考虑事务。主要应用于关系型数据库

OLAP:on-line analytical proccessing,联机分析处理,主要面向复杂分析,会产生大量查询,很少增删改。主要应用于数据仓库

数仓是一个环境。目的是为了让用户更快,更方便的查询索要的信息,提供决策支持。

数仓按主题进行组织-面向主题,对原有分散的数据库数据抽取,清理的基础上经过系统加工,汇总,整理得到。必须消除源数据的不一致性以保证数仓内的信息是关于整个企业一致的全局信息-集成。一旦数据进入数仓,将长期存在,并被用户大量查询,修改和删除操作很少-稳定。数仓一般包括企业从某一时点到目前各个阶段的信息。可对企业发展做出定量分析和预测-反映历史变化

对不同数据存储方式的访问能力是数据抽取工具的关键,应能生成Cobol程序,MVS作业控制语言,UNIX脚本,SQL语句,用以访问不同的数据。

数据转换包括:删除对决策没有意义的数据字段,转换统一的数据名称和定义,计算统计和衍生数据,给缺值数据赋给缺省值,统一不同数据定义方式

元数据是描述数据仓库内数据的结构和建立方法的数据。可将其按用途的不同分为两类,技术元数据和商业元数据。

  技术元数据是数据仓库的设计和管理人员用于开发和日常管理数据仓库用的数据。包括:数据源信息;数据转换的描述;数据仓库内对象和数据结构的定义;数据清理和数据更新时用的规则;源数据到目的数据的映射;用户访问权限,数据备份历史记录,数据导入历史记录,信息发布历史记录等。

  商业元数据从商业业务的角度描述了数据仓库中的数据。包括:业务主题的描述包含的数据、查询、报表;

  元数据为访问数据仓库提供了一个信息目录(informationdirectory),这个目录全面描述了数据仓库中都有什么数据、这些数据怎么得到的、和怎么访问这些数据。是数据仓库运行和维护的中心,数据仓库服务器利用他来存贮和更新数据,用户通过他来了解和访问数据。

数据集市:从数据仓库中独立出来的一部分数据,针对用户特定需求得出的

数据仓库管理:安全和特权管理;跟踪数据的更新;数据质量检查;管理和更新元数据;审计和报告数据仓库的使用和状态;删除数据;复制、分割和分发数据;备份和恢复;存储管理

信息发布系统:把数据仓库中的数据或其他相关的数据发送给不同的地点或用户。基于Web的信息发布系统是对付多用户访问的最有效方法

数据仓库的设计步骤

  1)选择合适的主题(所要解决问题的领域)。

  2)明确定义fact表。

  3)确定和确认维。

  4)choosing the facts。

  5)计算并存储fact表中的衍生数据段。

  6)rounding out the dimension tables。

  7)choosing the duration of the database。

  8)the need to tracks lowly changing dimensions。

  9)确定查询优先级和查询模式。

  2、数据仓库的建立步骤

  1)收集和分析业务需求。

  2)建立数据模型和数据仓库的物理设计。

  3)定义数据源。

  4)选择数据仓库技术和平台。

  5)从操作型数据库中抽取、净化、和转换数据到数据仓库。

  6)选择访问和报表工具。

  7)选择数据库连接软件。

  8)选择数据分析和数据展示软件。

  9)更新数据仓库 。

原文地址:https://www.cnblogs.com/huiandong/p/9954675.html

时间: 2024-07-29 14:02:47

数仓简介的相关文章

【云+社区极客说】新一代大数据技术:构建PB级云端数仓实践

本文来自腾讯云技术沙龙,本次沙龙主题为构建PB级云端数仓实践 在现代社会中,随着4G和光纤网络的普及.智能终端更清晰的摄像头和更灵敏的传感器.物联网设备入网等等而产生的数据,导致了PB级储存的需求加大. 但数据保留下来并不代表它真的具有利用价值,曾经保存的几TB的日志,要么用来做做最简单的加减乘除统计,要么就在日后出现问题了,扒出日志堆找证据.你的影视库里面可以下载储存成千上万部影片,但不代表你真的能全部看完. 如何将手里现有的数据变得更具有价值?一些营销云已经可以做到毫秒级响应做到精准投放广告

干货:解码OneData,阿里的数仓之路。

免费开通大数据服务:https://www.aliyun.com/product/odps 据IDC报告,预计到2020年全球数据总量将超过40ZB(相当于4万亿GB),这一数据量是2013年的10倍.正在"爆炸式"增长的数据的潜在巨大价值正在被发掘,它有可能成为商业世界的"新能源",变革我们的生产,影响我们生活.当我们面对如此庞大的数据之时,如果我们不能有序.有结构的进行分类组织和存储,那么在价值被发现前,也许数据成本灾难已经来临.它犹如堆积如山的垃圾,给我们企业

企业大数据平台下数仓建设思路

免费开通大数据服务:https://www.aliyun.com/product/odps 介然(李金波),阿里云高级技术专家,现任阿里云大数据数仓解决方案总架构师.8年以上互联网数据仓库经历,对系统架构.数据架构拥有丰富的实战经验,曾经数据魔方.淘宝指数的数据架构设计专家. 与阿里云大数据数仓结缘 介然之前在一家软件公司给企业客户做软件开发和数仓开发实施,数仓开发和实施都是基于传统的基础架构.2008年加入阿里进入淘宝数据平台部后,他开始接触分布式计算平台Hadoop. 初始时在Hadoop平

调度、模型、同步与任务——阿里云大数据数仓建设性能优化方案

摘要:对于阿里云大数据数仓建设性能优化而言,主要可以从调度优化.模型优化.同步优化以及任务优化这四个方面着手.其实,对于性能优化而言,最终还是会归结到"资源"之上,所以资源是否足够,分配是否合理也是我们在进行性能优化时必须考虑的关键所在. 本文将主要围绕以下四个方面进行介绍:调度优化.模型优化.同步优化以及任务优化.对于调度优化而言,将分享任务调度如何进行优化,以及如何看到调度的瓶颈点,以及在初步进行建设和使用数据仓库的任务之后,对于任务如何进行调整来满足业务的时间要求.对于模型优化而

保险数仓建设-kimball

一.  背景: 1. 部门经过一轮的重大变化,对目前的数据提出了新的要求,其中之一就是要做业务数仓. 2. 经过和leader的沟通,从业务层面,时间层面,人力层面出发,最终还是使用维度建模的方式来实现,实现的内容更多的是个数据集市或者业务数仓. 二. 经过: 1. 整个建设流程分为如下几个:a. 业务流程的梳理和规划. b. 业务数据的梳理. c. 业务指标和维度的梳理. d. 数仓框架设计,层次设计,维表设计,事实表设计. e. 数仓开发. f. 结果的输出,指标的输出. 三. 问题和总结:

数仓模型示例

数仓模型案例一.范式建模1.零范式为便于分级说明三范式的特点,我们将不满足任何范式即无范式的数据称为零范式,假设它只满足一个最基本的条件--数据中不存在重复数据.假设根据零范式的定义数据库中有一张保险订单统计表,表中包含了用户id.保险id.用户名.注册省份.注册城市.注册区县.保险名称.购买信息(价格.数量).总保费.购买日期.具体情况如下图:2.一范式在零范式的基础上加上字段具有原子性即属性不可分这个条件后便形成了符合一范式的表.基于上面的保险订单统计表一范式和零范式的区别主要在于将表中的"

在HUE中将文本格式的数据导入hive数仓中

今天有一个需求需要将一份文档形式的hft与fdd的城市关系关系的数据导入到hive数仓中,之前没有在hue中进行这项操作(上家都是通过xshell登录堡垒机直接连服务器进行操作的),特此记录一下. -- step1 -- 创建表(注意表的存储格式) create table if not exists edw_public.dim_edw_pub_hft_fdd_city_rel_info( hft_city_id bigint comment '好房通城市id', hft_city_name

数仓1.4 |业务数仓搭建| 拉链表| Presto

电商业务及数据结构 SKU库存量,剩余多少SPU商品聚集的最小单位,,,这类商品的抽象,提取公共的内容 订单表:周期性状态变化(order_info) id 订单编号 total_amount 订单金额 order_status 订单状态 user_id 用户id payment_way 支付方式 out_trade_no 支付流水号 create_time 创建时间 operate_time 操作时间 订单详情表:(order_detail) order_detail.order_id 是要一

如何才能让数仓构建成本降低80%,维护成本降低70%?

构建数据仓库的核心是建模,在数据仓库的构建中,ETL贯穿于项目始终,它是整个数据仓库的生命线.从数据源中抽取数据,然后对这些数据进行转化,最终加载到目标数据库或者数据仓库中去,这也就是我们通常所说的 ETL 过程(Extract,Transform,Load). 通常数据抽取工作分抽取.清洗.转换.装载几个步骤: 抽取主要是针对各个业务系统及不同服务器的分散数据,充分理解数据定义后,规划需要的数据源及数据定义,制定可操作的数据源,制定增量抽取和缓慢渐变的规则. 清洗主要是针对系统的各个环节可能出