OLAP简介（结合个人工作）

OLTP和OLAP

传统的数据库系统都是OLTP，只能提供数据原始的操作。不支持分析工作。

OLTP系统:：执行联机事务和查询处理。一般超市进销存系统，功能：注册，记账，库存和销售记录等等，

OLAP系统：数据分析与决策服务，组织不同格式数据，满足不同用户需求。

区别：

面向性。OLTP面向顾客，就是操作员，如超市收银员，银行柜台人员。OLAP面向市场，用于数据分析，分析人员包括数据分析员，做出决策的业务经理，或者策略制定部分。

数据内容：OLTP当前数据。OLAP历史数据的汇总与聚集。

数据库设计：OLTP用ER模型和面向应用数据库。OLAP 用星型或雪花模型，面向主题数据库设计。

还有访问模式：操作事务与只读的分析计算的区别。

等等

多维数据模型：

数据立方体cube：

给定维度的每个子集产生一个cuboid（称为方体）。这样可以在不同粒度上的汇总级别或分组（group by），来显示数据，整体上方体的格成为cube。

最低层汇总的方体称为基本方体（basecuboid）。出现某一个维度上的汇总后，则为非基本方体。

汇总到最高层的数据称为顶点方体（apexcuboid），如0-d方体，that’s to say，所有维度汇总到一起只剩一个cuboid，不能再汇总了。

顶点方体是最高泛化的方体。基本方体是最低特殊化的方体。

粗细粒度是不同程度上的汇总，涉及操作：

上卷（roll up），供应商称之为上钻drillup，沿着维度的概念分层向上

下钻（drill down）沿着维度的概念分层向下，需找更细粒度的数据。

切片：固定某一维度的取值，抽取这一维度下的子集。

切块：由多个维度上选择多个取值，抽取其所映射的子立方体。

旋转rotate: 也叫pivot数轴变换，简单说，二维表中的行列转置。到三维以上复杂，不同数轴之间的位置变换。说的高大上叫数据的视图角度转变

概念分层：低层概念（如城市）映射到更高的层次概念（如国家）。从低到高叫泛化（generalize），从高到低叫特殊化（specialize）。

模式分层（schema hierarchy）概念分层为数据库模式中属性的全序或偏序。

集合分组分层（set-grouping hierarchy）给定维度的属性值的离散化或分组。如年龄age属性离散化为young、mid、old三个子集，分组group by sex的男女子集。

数据立方体的实现：

使用数据仓库的模型是多维模型，目前经常的有:

星型模型：一个大而全，且无冗余的事实表（fact）；以及不同分析维度上的维度表（dimension）。维度表围绕事实表，通过每个维度自身的dimension key（所有可能范围内的取值）关联。

雪花模型：星型模型的进一步细化，即将其中包含多个值的维度表进行规范化的（就是将维度表包含的某个值提取出来，作为新的dimension表），以便减少冗余。

这样把数据进一步分解到附加表中，易于维护，省空间（防止维度灾难），但查询时需要更多关联操作，降低时效性。

事实星座模型（fact constellation）or 星系模式（galaxy schema）：多个fact tableshare all dimesioms（共享维度表）。

比如我的设计的data warehouse。Workbench

Cube定义

Dimension定义

一般的data warehouse 都是用fact constellation。

指标Index

度量measure

维度灾难（curse of dimensionality），当维度过多（特征空间非常复杂），那么维度之间的关联计算就变得非常多，而维度概念分层会加重灾难。反应在cube中，就是不同维度的计算就会产生巨大的数据，就是预计算cube中所有的方体（子cube），存储空间是爆炸似增长。N维会有2ⁿ个子cube，加上概念分层L_i，则方体总数

预计算：1不物化（no materialization）2全物化（full materialization）3部分物化（partial materialization）

OLTP和OLAP

OLTP系统:：执行联机事务和查询处理。一般超市进销存系统，功能：注册，记账，库存和销售记录等等，

OLAP系统：数据分析与决策服务，组织不同格式数据，满足不同用户需求。

区别：

数据内容：OLTP当前数据。OLAP历史数据的汇总与聚集。

数据库设计：OLTP用ER模型和面向应用数据库。OLAP 用星型或雪花模型，面向主题数据库设计。

还有访问模式：操作事务与只读的分析计算的区别。

等等

多维数据模型：

数据立方体cube：

给定维度的每个子集产生一个cuboid（称为方体）。这样可以在不同粒度上的汇总级别或分组（group by），来显示数据，整体上方体的格成为cube。

最低层汇总的方体称为基本方体（basecuboid）。出现某一个维度上的汇总后，则为非基本方体。

汇总到最高层的数据称为顶点方体（apexcuboid），如0-d方体，that’s to say，所有维度汇总到一起只剩一个cuboid，不能再汇总了。

顶点方体是最高泛化的方体。基本方体是最低特殊化的方体。

粗细粒度是不同程度上的汇总，涉及操作：

上卷（roll up），供应商称之为上钻drillup，沿着维度的概念分层向上

下钻（drill down）沿着维度的概念分层向下，需找更细粒度的数据。

切片：固定某一维度的取值，抽取这一维度下的子集。

切块：由多个维度上选择多个取值，抽取其所映射的子立方体。

旋转rotate: 也叫pivot数轴变换，简单说，二维表中的行列转置。到三维以上复杂，不同数轴之间的位置变换。说的高大上叫数据的视图角度转变

概念分层：低层概念（如城市）映射到更高的层次概念（如国家）。从低到高叫泛化（generalize），从高到低叫特殊化（specialize）。

模式分层（schema hierarchy）概念分层为数据库模式中属性的全序或偏序。

集合分组分层（set-grouping hierarchy）给定维度的属性值的离散化或分组。如年龄age属性离散化为young、mid、old三个子集，分组group by sex的男女子集。

数据立方体的实现：

使用数据仓库的模型是多维模型，目前经常的有:

这样把数据进一步分解到附加表中，易于维护，省空间（防止维度灾难），但查询时需要更多关联操作，降低时效性。

事实星座模型（fact constellation）or 星系模式（galaxy schema）：多个fact tableshare all dimesioms（共享维度表）。

比如我的设计的data warehouse。Workbench

Cube定义

Dimension定义

一般的data warehouse 都是用fact constellation。

指标Index

度量measure

预计算：1不物化（no materialization）2全物化（full materialization）3部分物化（partial materialization）

时间： 2024-10-20 21:07:28

OLAP简介（结合个人工作）的相关文章

DNS简介、DNS工作原理、DNS正反向解析的搭建、DNS主从备份、DNS子域创建

一.DNS简介DNS 域名系统(Domain Name System)万维网上作为域名和IP地址相互映射的一个分布式数据库,能够使用户更方便的访问互联网,而不用去记让人头疼的一大串数字.根服务器:13组服务器负责DNS解析通过域名去查找ip地址的过程叫做域名解析通过ip地址去查找域名的过程叫做反向解析DNS协议运行在UDP协议之上,端口号53通常 Internet 主机域名的一般结构为树状结构:主机名.三级域名.二级域名.顶级域名. 二.DNS工作原理1.dns查询方式可分为递归查询和迭代查询递

SharePoint BI 学习系列一OLTP和OLAP简介

数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing).联机分析处理OLAP(On-Line Analytical Processing).OLTP是传统的关系型数据库的主要应用,主要是基本的.日常的事务处理,例如银行交易.OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果. 联机事务处理(Online Transaction Process),缩写成 OLTP 特点数据在 OLTP 模型

Seliux简介

一.SELInux简介二.selinux工作机制三.安全标签四.配置selinux 五.测试selinux 六.设定selinux的bool标签七.日志文件记录位置八.semanage的使用一.SELinux简介 secure enhanced linux SELinux:工作于Linux内核中 DAC:自主访问控制 //linux自带的,own,group,other //只有用户 Discretionary Access Control--DAC

drbd(一)：简介和安装

本文目录:1.drbd简介2.drbd工作原理和术语说明 2.1 drbd工作原理 2.2 drbd复制协议模型 2.3 drbd设备的概念 2.4 drbd资源角色 2.5 drbd工作模式 2.6 drbd分区说明3.drbd部署实验 3.1 实验环境和部署前的准备 3.2 yum安装drbd 3.3 编译安装drbd 1.drbd简介 drbd是通过网络(tcp连接)在不同服务器之间实现基于block级别进行数据实时同步的软件.类似于inotify+rsync,只不过inotify+rsy

C#如何设置Excel文档保护——工作簿、工作表、单元格

简介 Excel在工作和学习中应用广泛,是必不可少的数据统计与处理工具.对于一些重要的Excel文件,只供特殊人员查看.编辑或者防止重要数据对外泄露时,就需要设置文档保护,包括设置访问密码.设置文件只读等操作.本篇文章将介绍如何使用C#来设置Excel工作簿和工作表的保护,示例内容涉及以下要点加密Excel工作簿解密Excel工作簿加密Excel工作表3.1加密整个工作表3.2 锁定单元格区域解密工作表隐藏单元格公式工具使用 Spire. XLS for .NET 8.0 PS: 安

每周工作4小时，蒂莫西·费里斯最理想的工作方式和生活方式，QQ群666243547

内容简介 · · · · · · <每周工作4小时>是一本从观念到行为,彻底改变你的工作方式和生活方式的书.它既是数字时代的职场励志书和创业指导书,也是新新人类的全球化生存手册和人生哲学书,中文简体字版将它定位为“全球化3.0个人版”. 自2007年4月出版以来,这本书先后登上<华尔街日报>.<纽约时报>.<商业周刊>畅销书榜榜首,迄今已在全球29个国家和地区售出版权.和<世界是平的>一样,这是一本正在影响世界的书. 全书以作者本人的创业经历和

0基础学习大数据你需要了解的学习路线和方向

现在大数据这么火,各行各业想转行大数据,那么问题来了,该往哪方面发展,哪方面最适合自己? 首先从字面来了解一下大数据大数据 (巨量数据集合(IT行业术语)) 大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理的数据集合,是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的海量.高增长率和多样化的信息资产. 大数据的5V特点(IBM提出):Volume(大量).Velocity(高速).Variety(多样).Value(低价值密度).Veracit

  Saltstack实战

一:saltstack简介部署的工作,不能只用手来做了,我们需要用工具来完成,工具化和标准化是相辅相成的,工具化让线上运行的东西更标准 Saltstack是比较新的自动化工具,是python开发的,也提供了api,saltstack有三大功能,远程执行,配置管理和云管理,配置管理也可以叫做状态管理,运维三板斧,监控,执行,配置 Saltstack对不,Puppet是ruby写的不支持远程执行 ansible 也是python写的.Saltstack的官方网站就是saltstack.com 运

MVC和MVP

Model View Presenter vs Model View Controller简介在我工作中经常需要处理一些由于开发人员没能很清楚地理解MVC和MVP模式的区别的情况下使用它们而产生的问题.在这篇文章中我将会阐述一下我对两者之间区别的一些理解.在N层体系结构中MVC/P 模式仅仅只是用于表示层(presentation layer),理解这一点很重要.这两个模式并不是关于怎么构建数据层(data layer)和服务层(service layer)的,而是关于怎么将数据(data)从