BI数据仓库数据分层

为什么要对数据仓库分层?

  • 用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会存在大量冗余的数据;
  • 如果不分层的话,如果源业务系统的业务规则发生变化将会影响整个数据清洗过程,工作量巨大
  • 通过数据分层管理可以简化数据清洗的过程,因为把原来一步的工作分到了多个步骤去完成,相当于把一个复杂的工作拆成了多个简单的工作,把一个大的黑盒变成了一个白盒,每一层的处理逻辑都相对简单和容易理解,这样我们比较容易保证每一个步骤的正确性,当数据发生错误的时候,往往我们只需要局部调整某个步骤即可。

数据仓库标准上可以分为四层:ODS(临时存储层)、PDW(数据仓库层)、MID(数据集市层)、APP(应用层)

ODS层:

为临时存储层,是接口数据的临时存储区域,为后一步的数据处理做准备。一般来说ODS层的数据和源系统的数据是同构的,主要目的是简化后续数据加工处理的工作。从数据粒度上来说ODS层的数据粒度是最细的。ODS层的表通常包括两类,一个用于存储当前需要加载的数据,一个用于存储处理完后的历史数据。历史数据一般保存3-6个月后需要清除,以节省空间。但不同的项目要区别对待,如果源系统的数据量不大,可以保留更长的时间,甚至全量保存;

PDW层:

为数据仓库层,PDW层的数据应该是一致的、准确的、干净的数据,即对源系统数据进行了清洗(去除了杂质)后的数据。这一层的数据一般是遵循数据库第三范式的,其数据粒度通常和ODS的粒度相同。在PDW层会保存BI系统中所有的历史数据,例如保存10年的数据。

MID层:

为数据集市层,这层数据是面向主题来组织数据的,通常是星形或雪花结构的数据。从数据粒度来说,这层的数据是轻度汇总级的数据,已经不存在明细数据了。从数据的时间跨度来说,通常是PDW层的一部分,主要的目的是为了满足用户分析的需求,而从分析的角度来说,用户通常只需要分析近几年(如近三年的数据)的即可。从数据的广度来说,仍然覆盖了所有业务数据。

APP层:

为应用层,这层数据是完全为了满足具体的分析需求而构建的数据,也是星形或雪花结构的数据。从数据粒度来说是高度汇总的数据。从数据的广度来说,则并不一定会覆盖所有业务数据,而是MID层数据的一个真子集,从某种意义上来说是MID层数据的一个重复。从极端情况来说,可以为每一张报表在APP层构建一个模型来支持,达到以空间换时间的目的数据仓库的标准分层只是一个建议性质的标准,实际实施时需要根据实际情况确定数据仓库的分层,不同类型的数据也可能采取不同的分层方法。

---【补充】

数据缓存层:

用于存放接口方提供的原始数据的数据库层,此层的表结构与源数据保持基本一致,数据存放时间根据数据量大小和项目情况而定,如果数据量较大,可以只存近期数据,将历史数据进行备份。此层的目的在于数据的中转和备份。

核心数据层:

此层的数据在数据缓存层的基础上做了一定程度的整合,称之为数据集市,存储上仍是关系模型。此层的目的在于进行必要的数据整合为下一步多维模型做准备。

分析应用层:

此层的数据为根据业务分析需要构造的多维模型数据。数据可以直接用于分析展现。

说明:数据层次的划分可以根据实际项目需要进行裁剪,如果业务相对简单和独立,可以将核心数据层与分析应用层进行合并。另外,分析应用的数据可以来自多维模型的数据,也可以来自关系模型数据甚至原始数据。

时间: 2024-10-02 07:56:09

BI数据仓库数据分层的相关文章

企业级BI大数据可视化分析软件开发

在大数据时代,一切数据都可以通过软件智能分析出对企业有效的分析报告.BI就是商业智能的意思,他是一整套完整的解决方案,用于企业,将企业中已有数据做有效整合,快速准确的提供分析报表提供决策依据,帮助企业做出明智的战略规划. 系统主要由三层构成: 1.数据抽取层即传统的ETL2.数据分析层,即传统的数据仓库3.数据展示层,即传统的OLAP. BI大数据系统是一种提供给使用者对数据进行分析的工具,它具有强大的数据处理和分析能力.随着大数据时代的来临,对于大量数据的快速分析能力的需求成为BI系统的需求之

如何用数据仓库管理海量数据?直接访问数据仓库数据时的4个限制

有时候数据仓库中需要进行管理的大量数据是一个重要问题.建立简要记录是大量数据管理的一种有效技术.在把操作型环境中的详细记录转入数据仓库中简要记录的过程中,数据量的降低是显著的.一般通过建立简要记录可以使数据量降低2-3个数量级.由于这种可能性,创建简要记录是每一个数据体系结构设计人员手中很强有力的一种技术.事实上,与其他设计或数据管理技术相比较,要想在数据仓库中有效地管理大量数据,那么建立简要记录应该是数据仓库体系结构设计者应该考虑的首选技术和最强有力的技术. 然而,采用这种方式也有其不足之处.

能源管控系统开发,BI大数据可视化管理分析平台开发

能源管理系统是以帮助工业生产企业在扩大生产的同时,合理计划和利用能源,降低单位产品能源消耗,提高经济效益为目的信息化管理系统.通过能源计划,能源监控,能源统计,能源消费分析,重点能耗设备管理,能源计量设备管理等多种手段,是企业管理者对企业的能源成本比重发展趋势有准确的掌握,并将企业的能源消费计划任务分解到各个单位,是节能工作责任明确,促进企业健康稳定发展.针对我国工业生产线中的在线计量.功效检测技术和节能控制技术严重缺乏等问题.研究开发工业生产线关键点在线电能计量.加工功效有效性分析技术,工业生

BI大数据智能可视化大屏分析系统建设软件开发

要建设企业级大数据可视化分析系统,需要构建企业统一的数据库体系或者直接将已有数据库对接.进行数据建模,为数据分析可视化呈现奠定基础.通过数据分析管理系统,有了数据基础,就可以构建BI大数据智能可视化大屏分析,满足企业的业务需求,提升数据价值. BI大数据智能可视化大屏分析系统建设软件开发的技术实现: 1.Hadoop:使用 hadoop作为系统的基础框架,对数据进行分布式的存储和分析.HDFS是 hadoop提供的分布式存储系统,它对体积巨大的数据切分成多个小块存储的不同的节点,每个块又做了多个

数据仓库架构分层

数据仓库简介:有些人不理解数据仓库,认为数据仓库就是获取数据,只要会使用hadoop.spark等大数据工具就懂数据仓库,这样的认识太片面.如果要从海量数据中总结出一个报表或者是多个报表,大数据工程师足以:如果在有限的资源动态的数据情况下,向前可历史追溯,向后对不断增加的报表实现兼容,这就需要一套科学的数据管理方法.数据仓库是一门数据管理的科学,数据仓库的核心就是计算.存储和维护之间的博弈. 标准的数据仓库分层:sd(源数据层),ods(中间存储层),dw(多维数据层),dm(数据集市层),ap

微软Power BI 的数据可视化技术workshop

2018年2月9日的微软技术爱好者的免费讲座活动.实战演示介绍微软Power BI数据可视化大屏技术分享.深受大家好评! 原文地址:http://blog.51cto.com/lihuansong/2071779

数字化产业升级大数据分析系统建设BI大数据软件开发

流量为王的时代,大数据分析变得越来越重要.用户更喜欢什么,更愿意购买什么等各类的问题,完全可以通过大数据分析系统分析出来.企业引入BI大数据分析系统也将更好进行数字化转型.并且大数据分析系适用于任何企业,只要是需要将数据有效利用起来,它就能够帮助企业创造更多价值. 大数据分析系统之金融的优势: 1.提高企业内部应用系统问题排查效率,提升数字化业务的持续优化能力: 2.统一的业务运维管理和数字化KPI考核体系,有效提高各部门协同效率 3.为管理者的科学决策提供全局视角 4.快速定位用户端.网络.应

数据仓库数据架构小序

今天遇到一个数仓工程师经常会遇到的一个棘手问题,就是要提取一个供应商从2007到2017年来销售的数据明细,本来从现有的数据作业关系架构图中很容易取出这些数据,但是第一数据跨度太长,这种非原始数据底层只存了近5年的数:第二如果冲底层重新生成数据,由于供应商数据不是直接从底层处理而来,有好几个前置作业,我必须了解前置作业10年前数据处理逻辑是什么样子(对于我这种工作不满10年的完全是一场灾难),只能重新对接业务部,从头开发一张报表.这样做实在是太耗费时间和人力了. 由此深深地觉得数据模型结构建设存

重写TreeView模板来实现数据分层展示(一)

总想花些时间来好好总结一下TreeView这个WPF控件,今天来通过下面的这几个例子来好好总结一下这个控件,首先来看看一个常规的带虚线的TreeView控件吧,在介绍具体如何完成之前首先来看看最终实现的效果图吧! 然后我们来具体分析一下这个是怎样去实现的? 1 修改TreeView的模板层 其实TreeView中最重要的就是TreeViewItem项,这个决定了最终TreeView的展现方式,另外就是TreeView每展开子项时前面的ToggleButton的样式了,因为默认的TreeView样