数据仓库专题(16)-分布式数据仓库实践指南-目录篇

前言:

准备系统化整理一套分布式数据仓库建模实践指南,先把目录列出来吧,算是给自己设计一个目标吧。

第一部分 基础篇

第一章 数据仓库概念与定义

1.1 数据管理体系

1.2 数据仓库概念

1.3 数据仓库职责

第二章 数据仓库体系结构

2.1 Inmon CIF

2.2 Kimball

2.3 对于与分析

第三章 维度建模基础

3.1 kimball四步建模法

3.2 维度设计

3.3 事实表设计

第二部分 实践篇

第一章 路线图

第二章 业务分析-深浅有度

第三章 数据分析-区别对待

第四章 数据建模-概念模型、逻辑模型、物理模型

第五章 聚集模型

第三部分 工具篇

第一章 数据建模基础

1.1 数据模型分类

1.2 数据建模语言

1.3 数据建模收益

1.4 数据建模原则

第二章 维度建模工具

2.1 Hello ERwin

2.3 建模语言设置

2.3 对象命名规范

2.4 对象配色管理

2.5 对象样式设置

2.6 维度建模实践

第三章 分布式数据仓库系统

3.1 Hadoop

3.2 Hive

3.3 Spark

第四部分 提高篇

第一章 数据仓库与业务系统改造

1.1 业务重构

1.2 数据重构

第二章 数据仓库与数据变现

2.1 数据价值链理论

2.2 数据变现链条

2.3 数据变现模式

未完待续,意见征集中,欢迎回复留言,如果对于分布式数据仓库建设有兴趣,可加群:

分布式数据仓库建模 398419457

时间: 2024-10-12 02:55:14

数据仓库专题(16)-分布式数据仓库实践指南-目录篇的相关文章

DevOps实战 版本管理实践指南

版本管理是DevOps实践中非常重要的一环,本系列教程以svn和git为中心,结合分支管理模型,介绍版本管理如何与工具结合,如何进行项目实践. svn实践指南 基础篇 项目 内容 链接 No.1 简介&安装 https://blog.csdn.net/liumiaocn/article/details/81942113 No.2 alpine的svn镜像 https://blog.csdn.net/liumiaocn/article/details/81942115 No.3 用户&权限设

数据仓库专题(4)-分布式数据仓库事实表设计思考---讨论精华

一.前言 上一篇分享博文<数据仓库专题(3)--分布式数据仓库事实表设计思考>后,陆续有各位兄弟参加大讨论,提出了各种问题,关于分布式环境下,维表和事实表设计,进行了比较深入的探讨,在此汇集整理,分享给大家.希望能有更多人参与尽力啊,共同探索分布式数据仓库数据模型的设计. 二.纪要 [活跃]北京-RTB-胖哥(1106110976) 10:21:36 分布式模式下事实表设计思考: 做大做强事实表,做小做弱维表: [冒泡]杭州-电子病历<[email protected]> 10:2

大规模Hadoop集群实践:腾讯分布式数据仓库(TDW)

TDW 是腾讯最大的离线数据处理平台.本文主要从需求.挑战.方案和未来计划等方面,介绍了TDW在建设单个大规模集群中采取的 JobTracker 分散化和 NameNode 高可用两个优化方案. TDW(Tencent distributed Data Warehouse,腾讯分布式数据仓库)基于开源软件 Hadoop 和 Hive 进行构建,打破了传统数据仓库不能线性扩展.可控性差的局限,并且根据腾讯数据量大.计算复杂等特定情况进行了大量优化和改造. TDW服务覆盖了腾讯绝大部分业务产品,单集

数据仓库专题(3)-分布式数据仓库事实表设计思考

一.前言 最近在设计数据仓库的数据逻辑模型,考虑到海量数据存储在分布式数据仓库中的技术架构模式,需要针对传统的面相关系型数据仓库的数据存储模型进行技术改造.设计出一套真正适合分布式数据仓库的数据存储模型. 二.事实表设计基础 事实表记录发生在现实世界中的操作型事件,其所产生的可度数值.事实表的设计完全依赖于物理活动,不受可能产生的最终报表的影响.事实表中,除数字度量外,事实表总是包含外键,用于关联与之相关的维度,也可以包含退化的维度键和日期/时间戳. 三.传统模式 以FS-LDM数据存储模型Ev

数据产品设计专题(5)- 分布式数据仓库技术架构

一.分布式数据仓库技术架构 二.核心内容解读 (1)分布式数据仓库存储技术:hive+hdfs: (2)事实计算平台技术框架:spark: (3)数据挖掘算法技术框架:mllib + sparkR

数据仓库专题(2)-Kimball维度建模四步骤

一.前言 四步过程维度建模由Kimball提出,可以做为业务梳理.数据梳理后进行多维数据模型设计的指导流程,但是不能作为数据仓库系统建设的指导流程.本文就相关流程及核心问题进行解读. 二.数据仓库建设流程 以下流程是根据业务系统.组织结构.团队结构现状设定的数据仓库系统建设流程,适合系统结构复杂,团队协作复杂,人员结构复杂的情况,并且数据仓库建设团队和业务系统建设团队不同的情况.具体流程如下图所示: 图1 数据仓库系统建设流程 三.四步维度建模 Kimball四步建模流程适合上述数据仓库系统建设

数据仓库专题(6)-数据仓库、主题域、主题概念与定义

一.数据仓库 关于数据仓库概念的标准定义业内认可度比较高的,是由数据仓库之父比尔·恩门(Bill Inmon)在1991年出版的"Building the Data Warehouse"(<建立数据仓库>)一书中所提出: 中文定义:数据仓库是一个面向主题的.集成的.相对稳定的.反映历史变化的数据集合,用于支持管理决策. 英文定义:A data warehouse is a subject-oriented, integrated, nonvolatile, and time

【转帖】Mysql多维数据仓库指南 第一篇 第1章

 Mysql多维数据仓库指南 第一篇基本原理 章节列表: 第1章:基本组成 第2章:维度历史 第3章:维度可加性 第4章:维度查询 本篇概述 你将运用关系数据库来实施一个维度数据仓库.事实表和维表这两种类型的关系表构成了一个数据仓库模式的基本部分,在本书的第一部分,你将用mysql数据库建立这些基本部分. 第1章:基本组成   概述        本章将了解两个重要的主题:星型模式和代理键.星型模式是一种维度数据仓库的数据结构.代理键是在数据仓库中添加到事实表以作为主键的字段. 在本章你将开始一

数据仓库专题(8)-维度属性选择之维护历史是否应该保留

一.背景 数据仓库建模过程中,针对事务型事实表设计,经常会遇到维度属性选择的问题,比如客户维度,在操作型系统中,为了跟踪客户状态的变化,往往会附加客户记录的四个属性: 1.add time:添加时间: 2.add user:添加用户: 3.mod time:修改时间: 4.mod user:修改用户: 问题在于,当我们进行维度建模的时候,如果以客户作为维度,是否应该考虑以上四个属性? 二.观点 1.应该保留 (1)我觉得 添加时间 可以作为维度属性,以后可能进行相关的统计: 2.不应该保留 (1