数据仓库介绍

  1、数据仓库概念与用途

  数据仓库(Data Warehouse,简写DW)是一个数据库集合,存储大量的数据,主要为企业撰写分析报告与决策做支撑,对多样的业务数据进行筛选整合,为企业提供一定的BI(商业智能)能力,指导业务流程改进、监视时间、成本、质量以及控制。

  数据仓库的输入方是各种各样的数据源,最终的输出用于企业的数据分析、数据挖掘、数据报表等方向。

  2、数据仓库特点

   (1)主题性

  不同于传统数据库对应于某一个或多个项目,数据仓库根据使用者实际需求,将不同数据源的数据在一个较高的抽象层次上做整合,所有数据都围绕某一主题来组织。

  这里的主题怎么来理解呢?比如对于滴滴出行,“司机行为分析”就是一个主题,对于链家网,“成交分析”就是一个主题。

   (2)集成性

  数据仓库中存储的数据是来源于多个数据源的集成,原始数据来自不同的数据源,存储方式各不相同。要整合成为最终的数据集合,需要从数据源经过一系列抽取、清洗、转换的过程。

   (3)稳定性

  数据仓库中保存的数据是一系列历史快照,不允许被修改。用户只能通过分析工具进行查询和分析。

  (4)时变性

   数据仓库会定期接收新的集成数据,反应出最新的数据变化。

  3、不同数据源的集成

  数据仓库主要通过ETL来集成不同数据源,ETL全称是Extract-Transoform-Load的缩写,用来描述将数据从来源迁移到目标的几个过程:

  ①Extract,数据抽取,也就是把数据从数据源读出来。

  ②Transform,数据转换,把原始数据转换成期望的格式和维度。如果用在数据仓库的场景下,Transform也包含数据清洗,清洗掉噪音数据。

  ③Load, 数据加载,把处理后的数据加载到目标处,比如数据仓库。

  

  Hive是基于Hadoop的数据仓库工具,可以对存储在HDFS上的文件数据集进行查询和分析处理。Hive对外提供了类似于SQL语言的查询语言 HiveQL,在做查询时将HQL语句转换成MapReduce任务,在Hadoop层进行执行。Hive的主要优势在于免费。

  

  HDFS:Hadoop的分布式文件系统,在这里作为数据仓库的存储层。图中的Data Node就是HDFS的众多工作节点。

  MapReduce:一种针对海量数据的并行计算框架,可以简单理解为对数据进行分片的数据转换和合并。

  4、主流的数据仓库

  Oracle、Db2、Teradata(商业数据仓库业界老大)

  Teradata数据仓库配备性能最高、最可靠的大规模并行处理 (MPP) 平台,能够高速处理海量数据,其性能远远高于Hive。

  它使得企业可以专注于业务,无需花费大量精力管理技术,因而可以更加快速地做出明智的决策,实现 ROI(投资回报率) 最大化。

参考:https://blog.csdn.net/bjweimengshu/article/details/79256504

原文地址:https://www.cnblogs.com/beyondChan/p/11039762.html

时间: 2024-10-10 02:57:05

数据仓库介绍的相关文章

数据仓库系列--(1) 数据仓库普及

数据仓库介绍 良好的数据仓库设计是BI分析基石. 在企业看来,数据的两种形式:操作数据.分析数据.与操作型数据相对应的系统:联机事务处理[OLTP ],称为数据库:与后者相对应的系统:联机分析处理[OLAP],称为数据仓库[DW]. 数据仓库:支持管理决策过程.面向主题.集成.渐变.持久的数据集合. 与传统数据库不同,DW是多维数据库. 数据仓库存储的两个基本的元素是维度表和事实表. 事实表:是反映业务核心的表,表中存储了与该业务相关的关键数据,我们称其为"度量值",是今后用来计算及统

微软MSBI商业智能视频

第一讲:BI介质安装.BI基础知识讲解.BI方法论讲解.项目讲解                 1.BI基础知识讲解.BI方法论实施2.微软BI的介绍(数据仓库介绍.SSIS介绍.SSAS介绍.SSRS介绍)3.SQLSERVER数据库安装 和 天善底库导入 .Visual Studio 2008安装.PowerDesigner安装4.整个培训的内容.过程.案例以及注意事项等介绍 第二讲:数据仓库(SQLSERVER)                                      

深度学习数据集汇总

原文链接:https://zhuanlan.zhihu.com/p/25138563 分门别类整理了一些网上的免费数据集,这是分类下载地址,希望能节约大家找数据的时间.欢迎数据达人加入QQ群 565136792 交流. 金融 美国劳工部统计局官方发布数据 上证A股日线数据,1999.12.09 至 2016.06.08,前复权,1095支股票 深证A股日线数据,1999.12.09 至 2016.06.08,前复权,1766支股票 深证创业板日线数据,1999.12.09 至 2016.06.0

网站数据仓库整体架构图及介绍

数据仓库 数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support).其实数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因.因此数据仓库的基本架构主要包含的是数据流入流出的过程,可以分为三层——源数据.数据仓库.数据应用: 从图中可以看出数据仓库的数据来源于不同的源数据,并提供多样的数据应用,数据自上而下流入数据仓库后向上层开放应用,而数据仓库只是中间集

数据仓库基础介绍

前言 本文将会讲述 BI/DW/DA 领域的一些常见概念,如:事实表.维度表.建模.多维分析.cube 等,但不涉及具体实例分析. 1.维(Dimension) 维是用于从不同角度描述事物特征的,一般维都会有多层(Level:级别),每个Level都会包含一些共有的或特有的属性(Attribute),可以用下图来展示下维的结构和组成: 以时间维为例,时间维一般会包含年.季.月.日这几个Level,每个Level一般都会有ID.NAME.DESCRIPTION这几个公共属性,这几个公共属性不仅适用

漫谈大数据仓库与挖掘系统

任何比较关注业界新闻的人,都会知道最近一两年IT行业的几个关键字:移动端.LBS.SNS和大数据.前边三个,大家应该是很熟悉的,因为身边早已充斥着相关的应用.唯独最后一个大数据,在大部分人眼中却是非常陌生的,除了知道如数据挖掘.智能推荐等几个看似非常高深的词汇之外,却是不知其里的. 首先,笔者需要告诉大家,数据有什么价值.很多人可能认为,数据只是一堆数字,是没什么价值的.其实这些人很可能早已可能享受到数据的红利.例如早在2006年中旬上线的百度指数(index.baidu.com),其实就是一个

OLAP引擎——Kylin介绍

Kylin是ebay开发的一套OLAP系统,与Mondrian不同的是,它是一个MOLAP系统,主要用于支持大数据生态圈的数据分析业务,它主要是通过预计算的方式将用户设定的多维立方体缓存到HBase中(目前还仅支持hbase),这段时间对mondrian和kylin都进行了使用,发现这两个系统是时间和空间的一个权衡吧,mondrian是一个ROLAP系统,所有的查询可以通过实时的数据库查询完成,而不会有任何的预计算,大大节约了存储空间的要求(但是会有查询结果的缓存,目前是缓存在程序内存中,很容易

《数据仓库工具箱》——如何做好数据仓库

最近打算阅读一下数据仓库相关的书籍,百度了一下,有两本必读书<数据仓库工具箱>和<数据仓库>.简单介绍一下,<数据仓库>这本书更像是一本教材,里面的内容很经典:<数据仓库工具箱>看书名是一本单纯的工具书,其实里面都是实战.两本书各有千秋,我决定主要阅读<数据仓库工具箱>,今天分享第一章的内容,以后会做系列分享. 第一章主要介绍了维度建模的好处,Kimball的历史和技术架构,以及与其他类似架构的优劣,但其核心议题是:“如何做好数据仓库?” 说实话

数据仓库的多维数据模型

可能很多人理解的数据仓库就是基于多维数据模型构建,用于OLAP的数据平台,通过上一篇文章——数据仓库的基本架构,我们已经看到数据仓库的应用可能远不止这些.但不得不承认多维数据模型是数据仓库的一大特点,也是数据仓库应用和实现的一个重要的方面,通过在数据的组织和存储上的优化,使其更适用于分析型的数据查询和获取. 多维数据模型的定义和作用 多维数据模型是为了满足用户从多角度多层次进行数据查询和分析的需要而建立起来的基于事实和维的数据库模型,其基本的应用是为了实现OLAP(Online Analytic