DW-ODS

ODS

(操作数据存储)

编辑 讨论

操作数据存储ODS(Operational Data Store)是数据仓库体系结构中的一个可选部分,也被称为贴源层。ODS具备数据仓库的部分特征和OLTP系统的部分特征,它是“面向主题的、集成的、当前或接近当前的、不断变化的”数据。

中文名
操作数据存储
外文名
Operational Data Store
用    途
业务系统
功    能
存储、查询以及形成隔离层

目录

  1. 1 作用
  2. 2 设计方法
  3. 3 设计指南
  4. ? 数据调研
  5. ? 数据范围
  6. ? 主题元素

作用

编辑

一般在带有ODS的系统体系结构中,ODS都设计为如下几个作用:

1、在业务系统和数据仓库之间形成一个隔离层

一般的数据仓库应用系统都具有非常复杂的数据来源,这些数据存放在不同的地理位置、不同的数据库、不同的应用之中,从这些业务系统对数据进行抽取并不是一件容易的事。因此,ODS用于存放从业务系统直接抽取出来的数据,这些数据从数据结构、数据之间的逻辑关系上都与业务系统基本保持一致,因此在抽取过程中极大降低了数据转化的复杂性,而主要关注数据抽取的接口、数据量大小、抽取方式等方面的问题。

2、转移一部分业务系统细节查询的功能

在数据仓库建立之前,大量的报表、分析是由业务系统直接支持的,在一些比较复杂的报表生成过程中,对业务系统的运行产生相当大的压力。ODS的数据从粒度、组织方式等各个方面都保持了与业务系统的一致,那么原来由业务系统产生的报表、细节数据的查询自然能够从ODS中进行,从而降低业务系统的查询压力。

3、完成数据仓库中不能完成的一些功能

一般来说,带有ODS的数据仓库体系结构中,DW层所存储的数据都是进行汇总过的数据,并不存储每笔交易产生的细节数据,但是在某些特殊的应用中,可能需要对交易细节数据进行查询,这时就需要把细节数据查询的功能转移到ODS来完成,而且ODS的数据模型按照面向主题的方式进行存储,可以方便地支持多维分析等查询功能。

在一个没有ODS层的数据仓库应用系统体系结构中,数据仓库中存储的数据粒度是根据需要而确定的,但一般来说,最为细节的业务数据也是需要保留的,实际上也就相当于ODS,但与ODS所不同的是,这时的细节数据不是“当前、不断变化的”数据,而是“历史的,不再变化的”数据。

设计方法

编辑

在数据仓库设计方法和信息模型建模方法中,前人的著作对各种思路和方法都做过大量的研究和对比,重点集中在ER模型和维模型的比较和应用上。根据我们的实践经验,ER模型和维模型在数据仓库设计中并非绝对对立,尤其在ODS设计上,从宏观的角度来看数据之间的关系,以ER模型最为清晰,但从实现出来的数据结构上看,用维模型更加符合实际的需要。因此孤立地看ER模型或者维模型都缺乏科学客观的精神,需要从具体应用上去考虑如何应用不同的设计方法,但目标是一定的,就是要能够把企业的数据从宏观到微观能够清晰表达,并且能够实现出来。

设计指南

编辑

在ODS的概念定义中,已经描述了ODS的功能和特点,实际上ODS设计的目标就是以这些特点作为依据的。ODS设计与DW设计在着眼点上有所不同,ODS重点考虑业务系统数据是什么样子的,关系如何,在业务流程处理的哪个环节,以及数据抽取接口等问题。

数据调研

数据调研的内容和要求,在《调研规范》文档中做了详细定义,此处不再重复。

数据范围

确定数据范围实际上是对ODS进行主题划分的过程,这种划分是基于对业务系统的调研的基础上而进行的,并不十分关心整个数据仓库系统上端应用需求,但是需要把上端应用需求与ODS数据范围进行验证,以确保应用所需的数据都已经从业务系统中抽取出来,并且得到了很好的组织。一般来讲,主题的划分是以业务系统的信息模型为依据的,设计者需要综合各种业务系统的信息模型,并进行宏观的归并,得到企业范围内的高层数据视图,并加以抽象,划定几个逻辑的数据主题范围。在这个阶段,以ER模型表示数据主题关系最为恰当。第二步:根据数据范围进行数据分析和主题定义 在第一步中定义出来了企业范围内的高层数据视图,以及所收集到的各种业务系统的资料,在这一步中,需要对大的数据主题进行分解,并进行主题定义,直到每个主题能够直接对应一个主题数据模型为止。在这个阶段,将把第一步生成的每个ER图中的实体进行分解,分解的结果仍以ER表示为佳。

主题元素

定义维、度量、主题、粒度、存储期限

定义维的概念特性:

维名称,名称应该能够清晰表示出这个维的业务含义。

维成员,也就是这个维所代表的具体的数据,

维层次,维成员之间的隶属与包含的层次关系,每个层次需要定义名称

定义度量的概念特性:

度量名称,名称应该能够清晰表述这个度量的业务含义

定义主题的概念特性:

主题名称和含义,说明该主题主要包含哪些数据,用于什么分析;

主题所包含的维和度量;

主题的事实表,以及事实表的数据。

定义粒度:

主题中事实表的数据粒度说明,这种粒度可以通过对维的层次限制加以说明,也可以通过对事实表数据的业务细节程度进行说明。

定义存储期限:

主题中事实表中的数据存储周期。

第四步:迭代,归并维、度量的定义

在ODS中,因数据来自于多个系统,数据主题划分时虽然对数据概念进行了一定程度上的归并,但具体的业务代码所形成的各个维、以及维成员等还需要进一步进行归并,把概念统一的维定义成一个维,不允许同一个维存在不同的实体表示(象不同的业务系统中一样)。

第五步:物理实现

定义每个主题的数据抽取周期、抽取时间、抽取方式、数据接口,抽取流程和规则。

物理设计不仅仅是ODS部分的数据库物理实现,设计数据库参数、操作系统参数、数据存储设计之外,有关数据抽取接口等问题必须清晰定义。

转载自:https://baike.baidu.com/item/ODS/15146368?fr=aladdin

原文地址:https://www.cnblogs.com/xibuhaohao/p/11671211.html

时间: 2024-08-28 09:28:28

DW-ODS的相关文章

微博广告推荐中有关Hadoop的那些事

一.背景 微博,一个DAU上亿.每日发博量几千万的社交性产品,拥有庞大的数据集.如何高效得从如此规模的数据集中挖掘出有价值的信息,以增强用户粘性,提高信息传播速度,就成了重中之重.因此,我们引入了hadoop 分布式计算平台,对用户数据和内容数据进行分析和挖掘,作为广告推荐的基础. 二.问题及解决方案 在hadoop平台上进行开发时,主要遇到了以下一些问题: 2.1 数据量庞大 问题:无论在进行针对用户的协同过滤运算,还是在计算用户可能错过的微博中,无一例外的都遇到了数据量太大无法进行运算的情况

hive使用技巧(一)自动化动态分配表分区及修改hive表字段名称

Author:FuRenjie kwu 1.自动化动态分配表分区 set hive.exec.dynamic.partition.mode=nonstrict; insert overwrite table ods.fund2hundsunlg PARTITION(day) select distinct fromHostIp ,hundsunNodeIp,concat(substring(requestTime,0,10),' ', substring(requestTime,12,8)) ,

数据仓库基础理论笔记

第一节 互联网电商大数据环境 如果你真正进入这个行业了! 入职后你所在部门一般叫:数据平台.数据中心.数据部 可能的团队:数据仓库组:BI(商业智能)组.某事业部数据组:架构组:数据专家组:... 部门里重要的几拨人,一拨是搭建和保证hadoop系统每天正常运行和改进hadoop系统的架构人员,这批人对hadoop细节非常熟悉,另一拨是满足业务系统需求,每天都在开发应用的开发人员,这批人员开发经验非常丰富, 业务流程也很熟悉,还有一拨是管理系统的上线下线运行监控授权等运营工作的运营人员,这批人可

关于HIVE数据仓库的基本操作

[Author]: kwu 1.数据库划分: default : 默认库,测试库.对应路径 /hdfs/hive/default stage : 中转库 对应路径 /hdfs/dw/stage ods :  正式库 对应路径 /hdfs/dw/ods 2.创建表 create EXTERNAL table test_kwu ( dateday string comment "日期:如2015-01-01", datetime string comment "时间 : 如 11

DW数据仓库与ODS的区别

这两天接触到ODS,开始很纳闷,有了DW(Data Warehouse)干嘛还要ODS(Operational Data Store),于是不查不知道,一查吓一跳,这里面还有这么多道道,这里总结一下,当作学习了. 简单说:ODS 操作型数据存储,存储的是当前的数据情况,给使用者提供当前的状态,提供即时性的.操作性的.集成的全体信息的需求.DW 数据仓库存储是一个面向主题的,反映历史变化数据,用于支撑管理决策. 参考一:http://www.cnblogs.com/liqiu/p/4947801.

DW,DM,ODS的区别

数据仓库的重要应用是将不同来源的数据和异构数据通过ETL整合在一起,为决策分析提供支撑,若在同一个数据库中分不同用户,此意义不大:假设所有有用户都在一个数据库里,如果因为某个原因数据库重启,那么会影响所有的应用,这违背了 SOA 设计理念中低耦合的思路,当然建在不同的库也是不好的,比如我们要有下钻操作,需要从DW层下钻到ODS层,多个库不方便查询和关联. 在当今这样一个信息技术发展迅速的时代,数据量也在不断的增长,面临这样的压力,总是会有大神提出一些解决方案.比如高层管理人员希望能查看整个公司的

对数据仓库ODS DW DM的理解

原文链接:https://www.jianshu.com/p/72e395d8cb33 今天看了一些专业的解释,还是对ODS.DW和DM认识不深刻,下班后花时间分别查了查它们的概念. ODS——操作性数据 DW——数据仓库 DM——数据集市 1.数据中心整体架构 数据中心整体架构 数据仓库的整理架构,各个系统的元数据通过ETL同步到操作性数据仓库ODS中,对ODS数据进行面向主题域建模形成DW(数据仓库),DM是针对某一个业务领域建立模型,具体用户(决策层)查看DM生成的报表. 2.数据仓库的O

It's import to know before start learning DW/BI

Data Warehousing and Business Intelligence Differences Between Data Warehousing and Business Intelligence Filed under: Business Intelligence,Data Warehousing — Vincent Rainardi @ 6:38 pm Tags: Business Intelligence, Data Warehousing Try asking your c

ODS浅谈

ODS和DW 根据Bill.Inmon的定义,“数据仓库是面向主题的.集成的.稳定的.随时间变化的,主要用于决策支持的数据库系统”  : ODS (Operational Data Store)操作型数据存储,ODS具备数据仓库的部分特征和OLTP系统的部分特征,它是“集成的.当前或接近当前的.不断变化的”数据,一般不保留数据的变动轨迹,是数据仓库体系结构中的一个可选部分: ODS DW 主要是和源系统表结构相同,表结构随着源系统变化 面向主题的表模型,模型相对稳定 一般只保留最新数据或较短时间

OLAP --ODS项目的总结 --起步阶段

刚开始起步阶段,很多人都认为是DW选型,ETL工具选型或者构架等问题,这些其实都是 技巧上的问题,真正从项目上,业务上的观点来看,有点狭隘. 一个网友的观点给我启发很多,就是使用5W1H的工程方法,先把事情想明白. 5W : WHO ,WHAT,WHY,WHEN,WHERE WHO:(谁来对源数据负责)   业务数据源的维护人员,是重重之重,甚至是建设好DW的基石,这个项目比较小,我就是源数据的维护人员.其实我是中途出道,表不是我设计的,真正需要同源数据人员沟通的需要如下几点 1. 表结构符合的