数据仓库基础内容

一.数据仓库概念

将多数据源中的数据整合一起,进行数据分析,此时数据仓库对多种业务数据进行筛选和整合,可以用于数据分析、数据挖掘、数据报表。时效性T+1.

二.数据仓库的特点

  • 主题性:数据仓库是针对某个主题来进行组织,比如滴滴出行,司机行为分析就是一个主题,所以可以将多种不同的数据源进行整合。而传统的数据库主要针对某个项目而言,数据相对分散和孤立。
  • 集成性:数据仓库需要将多个数据源的数据存到一起,但是这些数据以前的存储方式不同,所以需要经过抽取、清洗、转换的过程
  • 稳定性:保存的数据是一系列历史快照,不允许修改,只能分析。
  • 时变性:会定期接收到新的数据,反应出最新的数据变化。

    三. 数据中心整体架构

四.名称解析

DB:各种数据源,如mysql,mongodb等数据库
ETL: 抽取(extract)、交互转换(transform)、加载(load)的过程。操作工具可以简单的编写程序操作,或者是用kettle工具。
ODS:操作型数据仓库。
ods:操作性数据仓库ods的应用场景

  1. 在业务系统和数据仓库之间形成一个隔离,ods直接存放从业务系统抽取过来的数据,这些数据从结构和数据上与业务系统保持一致,降低了数据抽取的复杂性。
  2. 转移一部分业务系统的细节查询功能,因为ods存放的数据与业务系统相同,原来有业务系统产生的报表,现在可以从ods中产生了。
  3. 完成数据仓库中不能完成的功能。ods存放的是明细数据,数据仓库dw或dm都存放的是汇聚数据,ods提供查询明细功能。

个人理解:

  1. ods提供了数据冗余备份,它的存在可以避免数据仓库直接调用业务系统的数据。
  2. 数据抽取到ods中只需要将业务系统的数据原封不动的拷贝过去,可以忽略业务上的规则。
  3. ods数据只能增加不能修改,而且数据都是从业务系统的原样拷贝,所以可能存在数据冲突的可能,解决办法是为每一条数据增加一个时间版本来区分相同的数据。

DW: 数据仓库,是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策

  1. 效率足够高,要对进入的数据快速处理。
  2. 数据质量,数据仓库是提供很多决策系统的支撑数据,所以数据准确非常重要。
  3. 扩展性,企业业务扩展和降低企业建设数据仓库的成本考虑。
  4. 面向主题,数据仓库中的数据是按照一定的主题域进行组织的,每一个主题对应一个宏观的分析领域,数据仓库排除对决策无用的数据,提供特定主题的简明视图。

dw理解:

  1. dw主要提供查询服务,并且需要查询能够及时响应。
  2. 进入dw的数据应该是能唯一的具有权威性的数据,企业的系统只能使用从dw提供的被认可的数据,所以预先做好企业的元数据建立非常必要。
  3. 定期需要对dw里面的数据进行质量检查,保证dw里面的数据唯一、权威、准确。
  4. dw的数据也是只允许增加不允许删除和修改,数据仓库主要是提供查询服务,删除和修改在分布式系统中会消耗大量的性能资源。

DM:数据即视层,以某个业务应用为出发点而建设的局部dw,dw只关心自己需要的数据,不会全盘考虑企业整体的数据架构和应用。每个应用有自己的dm
dm理解:

  1. dm结构清晰、针对性强、扩展性好,因为dm仅仅是单对某一个领域而建立,容易维护和修改。
  2. dm建设任务繁重,公司有众多业务每一个业务单独加建立工作量集合增加啊。
  3. dm的建立消耗更多存储空间,单独一个dm可能数据量不大,但是企业所有领域都建立dm数据量就会增加很多倍。

五. 大数据下的数据仓库模型

数据模型

底层模型:

原文地址:https://www.cnblogs.com/skyice/p/10421452.html

时间: 2024-07-28 17:53:38

数据仓库基础内容的相关文章

3天学习完AngularJS基础内容小结

简介:AngularJS 是一个 JavaScript 框架.它是一个以 JavaScript 编写的库. 一.AngularJS大致功能模块 二.页面交互变得简单 1.示例:计算价格 <html> <head> <meta name="viewport" content="width=device-width" /> <meta charset="utf-8"> <script src=&q

HtmlParser学习之一:基础内容

1.相关资料 官方文档:http://htmlparser.sourceforge.net/samples.html API:http://htmlparser.sourceforge.net/javadoc/index.html 其它HTML 解释器:jsoup等.由于HtmlParser自2006年以后就再没更新,目前很多人推荐使用jsoup代替它. 2.使用HtmlPaser的关键步骤 (1)通过Parser类创建一个解释器 (2)通过Filter或者Vistor访问Html中的内容. 3

Objective-c学习笔记—— 基础内容

6.5.1 多重继承 Python也支持多种继承形式.一个能继承多个基类的类定义如下: class DerivedClassName(Base1, Base2, Base3): <statement-1> . . . <statement-N> 大多数情况,最简单而言,你可以把从父类继承下来的属性查询看成是遵循深度优先,从左到右. 而不是在同一等级重复的同样类中执行两次.因此,如果一个属性没在派生类中找到,首先会在base1然后再base1的基类中,如果在那里都没发现,就会在bas

node.js基础内容

node.js node.js是建立在谷歌Chrome的JavaScript引擎(v8)的web应用程序框架. node.js 自带的运行环境可在JavaScript脚本的基础上解释和执行.这个运行是运行在浏览器以外的任何机器上执行JavaScript代码.所以也可以在服务端运行,Node.js还提供了各种丰富的JavaScript模块库,它极大简化了使用Node.js来扩展Web应用程序的研究与开发. 特性 Node.js库的异步和事件驱动的API全部都是异步就是非阻塞.它主要是指基于Node

万树IT:Android软件开发必学习的0基础内容

如今安卓系统中国的前景市场是非常广阔的,它主要针对的是移动设备市场,而如今智能手机已经占据人们生活不能缺少的一部分.所以,很多行业投入到安卓软件开发,进入到安卓开发的人才也越来越多. 安卓应用软件开发必学习的5大基础内容: 1.编程语言 2.基础应用开发 3.核心组件开发Android论坛交流 4丶安卓论坛交流学习 5.深入开发 Android软件开发必学习的0基础内容 1.编程语言的学习 安卓应用软件开发中有很多的编程语言可以使用,所以应该重点学习以下几种编程语言. ①  C/C++语言.  

css基础内容

css基础内容 CSS 指层叠样式表 (Cascading Style Sheets)样式定义如何显示 HTML 元素样式通常存储在样式表中把样式添加到 HTML 4.0 中,是为了解决内容与表现分离的问题外部样式表可以极大提高工作效率外部样式表通常存储在 CSS 文件中多个样式定义可层叠为一 一.css的引入方式 1.直接在html标签元素内嵌入css样式 <div style="font-size:14px; color:#FF0000;">行内引入</div&g

python学习之基础内容

python基础内容① 什么是python? -一种计算机语言,计算机语言分为 -高级语言:python.java.Ruby.C#.C++...... -基础语言:C语言.汇编 -计算机可以直接执行基础语言,但是基础语言比较复杂,敲代码很麻烦 -高级语言会自动转化为基础语言,再提供给计算机执行. 安装好python后,print("hello world") -python执行文件后缀名可以是任意的 -但是为了pycharm的执行方便,约定俗称使用“.py”后缀 python 的执行方

维度模型数据仓库基础对象概念一览

一.度量.指标.指标器 度量和维度构成OLAP的主要概念,对于在事实表或者一个多维立方体里面存放的数值型的.连续的字段,就是度量.这符合上面的意思,有标准,一个度量字段肯定是统一单位,例如元.户数.如果一个度量字段,其中的度量值可能是欧元又有可能是美元,那这个度量没法汇总. 在OLAP中还有计算度量的说法,用一个总费用除以用户数,得到每户平均费用.但这究竟还算不算度量了呢?这已经不是原本意义上的度量了,只是为了称呼方便而已. 这就得说到指标,英文的Metric.在绩效管理软件里面,通常是有这个概

数据仓库基础术语名词一览

冰山查询――iceberg query 在数据仓库领域有一个概念叫Iceberg query,中文一般翻译为"冰山查询".冰山查询在一个属性或属性集上计算一个聚集函数,以找出大于某个指定阈值的聚集值. 以销售数据为例,你想产生这样的一个顾客-商品对的列表,这些顾客购买商品的数量达到3件或更多.这可以用下面的冰山查询表示: Select        P.cust_ID, P.item_ID, SUM(P.qty) From           Purchase P Group by