数据仓库简介

一、数据仓库是什么,有什么用?

数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。

1. 面向主题

面向主题特性是数据仓库和事务型数据库的根本区别。操作型数据库是为了支撑各种业务而建立,而分析型数据库则是为了对从各种繁杂业务中抽象出来的分析主题(如用户、成本、商品等)进行分析而建立;

2. 集成性

集成性是指数据仓库会将不同源数据库中的数据经过系统加工, 整理汇总到一起;

3. 相对稳定
指一旦某个数据进入数据仓库以后只需要定期的加载、刷新, 并且仅允许用户进行查询,而事务型数据库允许用户进行增,删,改,查;

4. 反映历史变化

较之事务型数据库反映的业务的当前状态(一般存放90天以内的数据),数据仓库的时间跨度通常比较长。前者通常保存几个月,后者可能几年甚至几十年;另外,数据仓库包含来自其时间范围不同时间段的数据快照。
有了这些数据快照以后,用户便可将其汇总,生成各历史阶段的数据分析报告;

二、数据仓库的架构是什么样的?

数据仓库包括各类数据源,ETL,数据仓库和数据应用。具体如下图所示:

1.数据源

各种业务系统后台的数据库,各部门自己的Excel或者Access文件等;

2.ETL

ETL用来描述源数据经过抽取(extract)、转换(transform)、加载(load)至数据仓库的过程,其目的是为了保证数据质量;

3.数据应用

数据仓库通常提供具有直接访问数据仓库功能的前端应用,这些应用也被称为BI(商务智能)应用。

三、如何构建数据仓库?

数据仓库的开发流程与数据库的开发流程类似,只是多了ETL的过程,但是这往往是开发中最耗时的一个环节,因为整个各个数据源往往参差不齐,需要大量的数据清洗才能保证数据仓库的数据质量。

总结

在当前信息爆炸的时代,不管是互联网公司还是传统公司都意识到数据驱动决策的重要性,对数据仓库也越来越重视。

传统的企业结构化数据比较多,往往会选择传统数据库作为数据仓库,而互联网企业因为数据量巨大,而且非结构化数据居多,大多选用Hadoop Hive等开源的分布式数据仓库。

一流的数据应用如数据挖掘系统,推荐系统等都是建立在规范、标准、高性能的数据仓库之上的,所以公司对数仓建设的投入也越来越大,最后祭出张溪梦大神的数据分析框架

铸剑团队签名:

【总监】十二春秋之,[email protected];

【Master】戈稻不苍,[email protected];

【Java开发】雨鸶,[email protected];思齐骏惠,[email protected];小王子,545[email protected];巡山小钻风,[email protected];

【VS开发】豆点,[email protected];

【系统测试】土镜问道,[email protected];尘子与自由,[email protected];

【大数据】沙漠绿洲,[email protected];张三省,[email protected];

【网络】夜孤星,[email protected];

【系统运营】三石头,[email protected];平凡怪咖,[email protected];

【容灾备份】秋天的雨,[email protected];

【安全】保密,你懂的。

原创作者:张三省

著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

时间: 2024-11-12 08:14:05

数据仓库简介的相关文章

数据仓库架构分层

数据仓库简介:有些人不理解数据仓库,认为数据仓库就是获取数据,只要会使用hadoop.spark等大数据工具就懂数据仓库,这样的认识太片面.如果要从海量数据中总结出一个报表或者是多个报表,大数据工程师足以:如果在有限的资源动态的数据情况下,向前可历史追溯,向后对不断增加的报表实现兼容,这就需要一套科学的数据管理方法.数据仓库是一门数据管理的科学,数据仓库的核心就是计算.存储和维护之间的博弈. 标准的数据仓库分层:sd(源数据层),ods(中间存储层),dw(多维数据层),dm(数据集市层),ap

Hive概述

HIVE是什么    开发调试麻烦    只能用java开发     需要对hadoop的底层及api比较了解才能开发复杂代码 HQL Hive是基于Hadoop的一个数据仓库工具.可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行.其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析.    Hive是建立在 Hadoop 上的数据仓

成都大数据Hadoop与Spark技术培训班

成都大数据Hadoop与Spark技术培训班 中国信息化培训中心特推出了大数据技术架构及应用实战课程培训班,通过专业的大数据Hadoop与Spark技术架构体系与业界真实案例来全面提升大数据工程师.开发设计人员的工作水平,旨在培养专业的大数据Hadoop与Spark技术架构专家,更好地服务于各个行业的大数据项目开发和落地实施. 2015年近期公开课安排:(全国巡回开班) 08月21日——08月23日大连 09月23日——09月25日北京 10月16日——10月18日成都 11月27日——11月2

Hive (数据仓库)简介

一:什么是Hive(数据仓库)? 1.Hive 由 Facebook 实现并开源 2.是基于 Hadoop 的一个数据仓库工具 3.可以将结构化的数据映射为一张数据库表 4.并提供 HQL(Hive SQL)查询功能 5.底层数据是存储在 HDFS 上 6.Hive的本质是将 SQL 语句转换为 MapReduce 任务运行 7.使不熟悉 MapReduce 的用户很方便地利用 HQL 处理和计算 HDFS 上的结构化的数据,适用于离线的批量数据计算. 8.底层支持多种不同的执行引擎(Hive

PostgreSQL系列一:PostgreSQL简介与安装

一.PostgreSQL简介 1.1 PostgreSQL概述 PostgreSQL数据库是目前功能最强大的开源数据库,支持丰富的数据类型(如JSON和JSONB类型.数组类型)和自定义类型.而且它提供了丰富的接口,可以很容易地扩展它的功能,如可以在GiST框架下实现自己的索引类型等,它还支持使用C语言写自定义函数.触发器,也支持使用流行的语言写自定义函数,比如其中的PL/Perl提供了使用Perl语言写自定义函数的功能,当然还有PL/Python.PL/Tcl,等等. 1.2 PostgreS

Kafka简介

Kafka简介 在当前的大数据时代,第一个挑战是海量数据的收集,另一个就是这些数据的分析.数据分析的类型通常有用户行为数据.应用性能跟踪数据.活动数据日志.事件消息等.消息发布机制用于连接各种应用并在它们之间路由消息,例如通过message broker.Kafka是快速地将海量信息实时路由到消费者的解决方案,实现信息的生产者和消费者的无缝集成.它不会阻塞信息的生产者,同时信息生产者不会知道信息消费者. Apache Kafka是个开源的分布式消息发布订阅系统,具有以下特征: 消息持久化(per

Hive简介

实验简介 我们本节课程主要介绍 Hive 的相关知识,将会涉及以下内容: Hive 的定义 Hive 的体系结构 Hive 与关系数据库的区别 Hive 的应用场景 Hive 的存储 一.什么是 Hive ? Hive 是一个基于 Hadoop 文件系统之上的数据仓库架构.它为数据仓库的管理提供了许多功能:数据 ETL (抽取.转换和加载)工具.数据存储管理和大型数据集的查询和分析能力.同时 Hive 还定义了类 SQL的语言 -- Hive QL. Hive QL 允许用户进行和 SQL 相似

Hadoop入门简介

一.Hadoop简介 1.1.Hadoop主要进行分布式存储和分布式计算 1.1-1.HDFS:分布式文件系统 1.1-2.MapReduce:并行计算框架 1.2.Hadoop用来做什么? 搭建大型的数据仓库 搜索引擎.日志分析.数据挖掘 1.3.优势: 高扩展.低成本.成熟的生态圈 二.Hadoop核心 2.1.HDFS 2.1.1 简介 文件被分成块进行存储(默认块的大小是64MB),HDFS两个重要节点NameNode和DataNode 1)NameNode:管理节点,存储源文件 (1)

数据挖掘简介

数据挖掘简介 一.什么是数据挖掘 虽然有些数据挖掘技术非常新颖,但是数据挖掘本身并非一项新的技术:自从第一台计算机发明以来,人们就一直在计算机上分析数据,而且在此之前的数个世纪里,人们一直在没有计算机的情况下分析数据.多年来,数据挖掘有许多不同的名称,诸如知识发现.商业智能.预测建模及预测分析等等. 数据挖掘一般是指从大量的数据中通过算法来搜索隐藏于其中信息的过程. 数据挖掘通常与计算机科学有关,并通过统计.在线分析处理.情报检索.机器学习.专家系统(依靠过去的经验法则)和模式识别等诸多方法来实