DW2.0下一代数据仓库架构_第8章 数据模型和DW2.0(读书笔记)

智能线路图
    数据模型是DW2.0必备组成部分。数据模型在很多方面都扮演着通往DW2.0其他部分的只能线路图的角色。在DW2.0中建立线路图有很多种
原因,但最重要的原因是建立DW2.0并不是一蹴而就的,相反,每次建立一步,通过很长的时间完成,另外,它的建立是由很多人而不是单个
人完成的。为了协调不同人员的工作以及适应不同类型的用户,非常有必要建立一个线路图--数据模型,数据模型描述了DW2.0各部分如何
结合在一起。如果没有数据模型,DW2.0各部分的工作边被割裂开来,从而导致系统的混乱。

数据模型和企业
    数据模型是依据企业本身而建立的,它模拟了企业的各个部分。
    建立数据模型的第一步是定义整合范围。整合范围描述数据模型中包含什么和不包含什么。整合范围是十分重要的,没有它数据模型就
会无休止地建立下去,甚至可能包含宇宙级的数据。数据模型是建立在企业数据的基础之上。大多数机构都有大量的数据。即使定义了整合
范围,如果分析员不够谨慎,数据模型的建立还是会无休止地进行,除非对粒状数据模型和概括性或者聚合性数据模型有明确的区别。粒状
型数据是指体现最低层意义的数据,概括性数据则是诸如一天的交易量、一个月的收入、一年里企业的员工数,一个季度内的国民生产总值

区别粒状型数据和概括性数据
    关于为什么要区分粒状型数据和概括性数据主要有一下几个原因:
    1、概括型数据远远多于粒状型数据
    2、概括性数据变化速度比其建模过程要快
    3、概括性数据自身携带描述其是如何形成的算法
    如果数据模型中包括概括性数据,那么该模型肯定不能完成。

数据模型的层次
    1、ERD层,实体关系层,是数据模型中的最高层
    2、中间层模型,即dis,或数据项集
    3、底层模型,物理层,是数据建模的最底层
    ERD层是模型中较高的层,可以很快被构建好。ERD层描述了公司业务中的主要领域和他们之间的关系。中间层模型描述了数据模型中的
关键字、属性以及细节数据之间的关系。底层模型描述了数据模型的物理特性,例如数据的物理属性、索引、外键等等。模型的层次越低,
细节层次就越高。而模型的层次越高,模型就越完善。
    事实上,像DW2.0那样拥有不同层次模型的复杂结构在现实中也很常见,并不是一项新的陌生的技术。不同层次的映射结合在一起组成了
一个有层次的整体。如果数据模型结合在一起,组成DW2.0环境的各种系统便有了新的意义和秩序。DW2.0环境中有很多不同的模型。

数据模型与交互区
    第一批模型位于交互区的应用中。通常,每一项应用对应一个单独的数据模型。应用数据模型是由应用需求决定的。对性能的需求时建
立应用数据模型需要考虑的一个主要的方面。贯穿整个应用环境,特别是那些存在OLTP事物的地方,数据模型都是根据性能需求建立的。
当数据模型考虑了性能时才会变得合理化,贯穿系统的合理数据流会产生高的性能表现。而这种合理数据流正式由合理化的数据模型将数据
放在一起形成的。

企业数据模型
    企业数据模型展示了从应用环境中得到的数据如何形成企业数据。如果企业数据模型位于交互层和整合曾之间,那么它 就是DW2.0环境
的数据模型。企业数据模型以一种整合的方式描述企业所有的数据。企业模型真实反映了企业看待信息的视角,是一种整体信息的视角。

模型转换
    数据从应用区或者交互区流入整合区数据转变成企业状态。值得注意的是,当数据进入整合区时,通常会按照对象域存储。
    当数据流进入近线区时,数据模型通常不会发生改变。因为仅限环境需要尽可能模仿整合环境,近线区和整合区数据模型完全一样。
    归档区的数据模型可能改变也可能不改变。在一些情况下,数据进入归档区后状态和在整合区时相同,此时数据模型没有改变,另外一
种情况下,数据流入归档区时会发生根本的转变。数据流入了一个可称为反转列表格式的地方。数据被重新安排为一系列简单地列表。归档
环境或许需要这样一个转换,因为他可以使归档环境下的数据更易于查找和分析。归档环境数据可以放在企业数据模型格式中或者反转列表
格式中。

数据模型与非结构化数据
    数据模型对非结构化部分的重要性并没有其对结构化部分的重要性大。
    在DW2.0的非结构化部分,使用数据模型的第一个地方是外部分类过程。外部分类通常用于对数据进行分组和分类,使这些数据规范化或
合理化。非结构化环境中使用数据模型的第二个地方是建立内部数据模型。每部数据模型通常被用来描述文本实体的内容和结构,这些文本
实体往往非常大。
    首先非结构化数据被收集起来。接着这些数据会按照不同的对象加以阻止。通过这些对象可以建立相应的SOM(自组织映射),一旦SOM
建立起来,非结构化文本的核心主题及不同主题间的关系也随之形成,通过这些基本信息,内部数据模型便建立起来。

总结:
    数据模型形成了DW2.0环境的只能线路图。DW2.0规模庞大,结构复杂,需要大量的开发者经过长期的努力才能建立起来,正式数据模型
的出现,才使得不同的开发工作能够结合在一起。
    数据模型的形成取决于企业的业务需求,它建立在大量的粒状型数据基础上,而非概括性或聚合性数据。
    数据模型包括三个层次--ERD层、中间层和物理层。
    交互区的形成由应用模型决定,整合区的形成由企业数据模型决定。
    一些数据模型可以被用于非结构化数据中。特别是外部分类可以有为它们建立的数据模型。另外,内部数据模型可以根据主题建立,这
些主题是根据文本产生的。

时间: 2024-10-07 00:38:41

DW2.0下一代数据仓库架构_第8章 数据模型和DW2.0(读书笔记)的相关文章

物联网架构_对AWS的Greengrass的认识与理解

物联网架构_对AWS的Greengrass的认识与理解 一,前言: 这段时间有许多的收获,分析,还有总结,其中包括新系统的设计与开发,以及其中新技术的踩坑等等等. 但是最近真的很忙,项目的推进,面试工作等,尤其五月份还有考试.所以,赶紧趁着五一假期有些空暇,先发一些东西.之后,有机会再对自己的素材(周报,技术总结什么的),做一些整理,再发出来哈. 这篇文章,主要是在之前项目架构设计时,了解了现有的一些项目,其中就有AWS的Greengrass项目,这里简单介绍一下自己的认识. 物联网方面的介绍可

数据仓库架构理论和实践,数据仓库建模指南

数据仓库架构理论和实践,数据仓库建模指南 背景 在数据仓库建模中,未经任何加工处理的原始业务层数据,我们称之为ODS(Operational Data Store)数据.在互联网企业中,常见的ODS数据有业务日志数据(Log)和业务DB数据(DB)两类.对于业务DB数据来说,从MySQL等关系型数据库的业务数据进行采集,然后导入到Hive中,是进行数据仓库生产的重要环节. 如何准确.高效地把MySQL数据同步到Hive中?一般常用的解决方案是批量取数并Load:直连MySQL去Select表中的

Flume在企业大数据仓库架构中位置及功能

Flume在企业大数据仓库架构中位置及功能 hadoop 数据仓库 flume 数据仓库架构 1.如下图所示,外部数据中,关系型数据库导入到HDFS用sqoop,由Nginx产生的文件实时监控用Flume获得. 在HDFS或Hbase中,如果要进行实时查询用Impala(内存),如果是分析可以用Hive,Mapreduce分析.用Oozie来调用工作流执行任务. 2.左边是数据的来源:系统日志文件,应用文件(应用系统收集APP产生的日志),点击流(点击产生的日志),销售点(订单信息).通过Flu

微软讲座视频: 下一代vNext平台:ASP.NET vNext与MVC6,WebAPI 3.0 新特性 下载

 微软下一代平台vNext: .NET 5.0.ASP.NET vNext与MVC6,WebAPI 3.0 新特性 录像视频下载 http://t.cn/RPYhcuG  微软与开源实战训练营QQ群 203822816 微软MSDN俱乐部QQ群 29754721, 微软MSDN特邀讲师:徐雷  Frank Xu Lei倾力打造!新浪微博:http://weibo.com/frankxulei  @@老徐FrankXuLei 系统讲解NET vNext 新特性ASP.NET vNext新特性,

微软讲座视频: 微软下一代vNext平台:ASP.NET vNext与MVC6,WebAPI 3.0 新特性

微软下一代平台vNext: .NET 5.0.ASP.NET vNext与MVC6,WebAPI 3.0 新特性 录像视频下载 http://t.cn/RPYhcuG  微软与开源实战训练营QQ群 203822816 微软MSDN俱乐部QQ群 29754721, 微软MSDN特邀讲师:徐雷  Frank Xu Lei倾力打造!新浪微博:http://weibo.com/frankxulei  @@老徐FrankXuLei 讲课系统NET vNext 新特性ASP.NET vNext新特性, MV

数据仓库架构设计

一. 数据仓库架构,是IT架构的一个分支,随着数据在企业的核心作用的增强,数据仓库的架构日益重要.数据仓库架构由于其技术选择非常广泛,看上去复杂,不过背后有一套比较稳定的思路,这也是数据仓库架构设计的一个要点,稳定中蕴含变化,变化中蕴含稳定. 总 体来说,数据仓库架构分成两大块,一是硬件架构,二是软件架构.硬软架构又可以分成封闭式和开放式.封闭式硬件架构代表厂商有teradata,其硬件是 专属的,必须使用特殊的硬件才能运行.开放式硬件架构的代表有oracle,可以运行在各种硬件上,不过开放和封

数据仓库专题(24)-数据仓库架构体系总结

一.数据仓库架构 二.数据主题域设计 三.星型模型设计  四.数仓技术架构

mongoDB的读书笔记(via3.x)(00)_【概览】(01)_mongoDB3.0的一些变化

先啰嗦啰嗦,真的没想到,mongoDB能这么快推出3.x,我的2.6的读书笔记还没有写完呢,3.0就杀到了,咋办...头疼中... 看了一下3.0的介绍,我觉得还是直接上3.x的读书笔记吧,2.x的东东和3.x的比较着来,这样老的延续的东西也能温习,新的东西也可以马上知道,而且3.x的x到底到几的时候才能变成相对bug fixed版本还不知道,所以一边看着一边看bug fix过程吧.3.0的变化是从底层的数据存储上面发生的变更,存储方式的api可以使得今后增加更多的底层解决方案,根据不同的需求来

基于阿里云数加MaxCompute的企业大数据仓库架构建设思路

摘要: 数加大数据直播系列课程主要以基于阿里云数加MaxCompute的企业大数据仓库架构建设思路为主题分享阿里巴巴的大数据是怎么演变以及怎样利用大数据技术构建企业级大数据平台. 本次分享嘉宾是来自阿里云大数据的技术专家祎休 背景与总体思路 数据仓库是一个面向主题的.集成的.非易失的.反映历史变化的数据集合用于支持管理决策. 原文链接:http://click.aliyun.com/m/43803/ 数加大数据直播系列课程,主要以基于阿里云数加MaxCompute的企业大数据仓库架构建设思路为主