数据仓库之父比尔·恩门(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《建立数据仓库》)一书中所提出的定义被广泛接受,数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。
OLTP:on-line transaction proccessing,联机事务处理,主要是业务数据,需考虑高并发,考虑事务。主要应用于关系型数据库
OLAP:on-line analytical proccessing,联机分析处理,主要面向复杂分析,会产生大量查询,很少增删改。主要应用于数据仓库
数仓是一个环境。目的是为了让用户更快,更方便的查询索要的信息,提供决策支持。
数仓按主题进行组织-面向主题,对原有分散的数据库数据抽取,清理的基础上经过系统加工,汇总,整理得到。必须消除源数据的不一致性以保证数仓内的信息是关于整个企业一致的全局信息-集成。一旦数据进入数仓,将长期存在,并被用户大量查询,修改和删除操作很少-稳定。数仓一般包括企业从某一时点到目前各个阶段的信息。可对企业发展做出定量分析和预测-反映历史变化
对不同数据存储方式的访问能力是数据抽取工具的关键,应能生成Cobol程序,MVS作业控制语言,UNIX脚本,SQL语句,用以访问不同的数据。
数据转换包括:删除对决策没有意义的数据字段,转换统一的数据名称和定义,计算统计和衍生数据,给缺值数据赋给缺省值,统一不同数据定义方式
元数据是描述数据仓库内数据的结构和建立方法的数据。可将其按用途的不同分为两类,技术元数据和商业元数据。
技术元数据是数据仓库的设计和管理人员用于开发和日常管理数据仓库用的数据。包括:数据源信息;数据转换的描述;数据仓库内对象和数据结构的定义;数据清理和数据更新时用的规则;源数据到目的数据的映射;用户访问权限,数据备份历史记录,数据导入历史记录,信息发布历史记录等。
商业元数据从商业业务的角度描述了数据仓库中的数据。包括:业务主题的描述包含的数据、查询、报表;
元数据为访问数据仓库提供了一个信息目录(informationdirectory),这个目录全面描述了数据仓库中都有什么数据、这些数据怎么得到的、和怎么访问这些数据。是数据仓库运行和维护的中心,数据仓库服务器利用他来存贮和更新数据,用户通过他来了解和访问数据。
数据集市:从数据仓库中独立出来的一部分数据,针对用户特定需求得出的
数据仓库管理:安全和特权管理;跟踪数据的更新;数据质量检查;管理和更新元数据;审计和报告数据仓库的使用和状态;删除数据;复制、分割和分发数据;备份和恢复;存储管理
信息发布系统:把数据仓库中的数据或其他相关的数据发送给不同的地点或用户。基于Web的信息发布系统是对付多用户访问的最有效方法
数据仓库的设计步骤
1)选择合适的主题(所要解决问题的领域)。
2)明确定义fact表。
3)确定和确认维。
4)choosing the facts。
5)计算并存储fact表中的衍生数据段。
6)rounding out the dimension tables。
7)choosing the duration of the database。
8)the need to tracks lowly changing dimensions。
9)确定查询优先级和查询模式。
2、数据仓库的建立步骤
1)收集和分析业务需求。
2)建立数据模型和数据仓库的物理设计。
3)定义数据源。
4)选择数据仓库技术和平台。
5)从操作型数据库中抽取、净化、和转换数据到数据仓库。
6)选择访问和报表工具。
7)选择数据库连接软件。
8)选择数据分析和数据展示软件。
9)更新数据仓库 。
原文地址:https://www.cnblogs.com/huiandong/p/9954675.html