数据仓库数据架构小序

今天遇到一个数仓工程师经常会遇到的一个棘手问题,就是要提取一个供应商从2007到2017年来销售的数据明细,本来从现有的数据作业关系架构图中很容易取出这些数据,但是第一数据跨度太长,这种非原始数据底层只存了近5年的数;第二如果冲底层重新生成数据,由于供应商数据不是直接从底层处理而来,有好几个前置作业,我必须了解前置作业10年前数据处理逻辑是什么样子(对于我这种工作不满10年的完全是一场灾难),只能重新对接业务部,从头开发一张报表。这样做实在是太耗费时间和人力了。

由此深深地觉得数据模型结构建设存在重大问题。目前使用的数仓架构实际上是一张业务架构图,好处在于处理目前架构图中已有或者相近的数据需求时将是非常简单高效和快速的,但是,一旦业务有变化,整个架构图都要改变,越是修改离树根越近的作业, 相关的后续作业改的越多。更甚者像今天遇到的问题,要从底层处理10年前的数据,最高效的方法是找到10年前的数仓工程师和业务人员。

由此,我认为数仓的数据处理架构图不应该由业务引导,而是要以数据为动力,通过整理数据的内在联系,分门别类,最后形成一个包罗万象的数据模型。

当然,数据和业务是不能完全脱离,数据建模就像一棵松树的成长,数据骨干要直,所有的枝叶(业务)数据都来自同一个口径,不然一百个工程师处理同一个任务能出一百个哈利波特。由此本人数据建模过程总结:

1首先对业务进行整理,总结归纳业务需求。

2对各个业务的的数据进行分类,例如,本公司数据可以分为订单数据,供应商数据,物流数据,用户数据,优惠数据等几大类

3对各大类数据进行维度分析归类,例如,不论是订单还是供应商都会涉及到地理维度数据,商品维度数据等

4模型建设,模型建设包括事实表建设和维表建设,事实表作为数据最底层,粒度越细越好,例如事实表中订单销售销退数据,最好是精确到商品级,事实表要尽可能少地与维表数据重合,同样,维表要尽可能精简,鼓励使用星型模型,不建议使用雪花模型

5

时间: 2024-10-29 04:27:23

数据仓库数据架构小序的相关文章

数据产品设计专题(5)- 分布式数据仓库技术架构

一.分布式数据仓库技术架构 二.核心内容解读 (1)分布式数据仓库存储技术:hive+hdfs: (2)事实计算平台技术框架:spark: (3)数据挖掘算法技术框架:mllib + sparkR

数据架构的演变

大数据技术的兴起,让企业能够更加灵活高效地使用自己的业务数据,从数据中提取出更多重要的价值,并将数据分析和挖掘出来的结果应用在企业的决策.营销.管理等应用领域.但不可避免的是,随着越来越多新技术的引入与使用,企业内部一套大数据管理平台可能会借助众多开源技术组件实现. 01 传统数据基础架构 如图1-1所示,传统单体数据架构(Monolithic Architecture)最大的特点便是集中式数据存储,企业内部可能有诸多的系统,例如Web业务系统.订单系统.CRM系统.ERP系统.监控系统等,这些

IFTTT的数据架构

最近在调研一款神器--IFTTT,发现这个应用用了不少高端的技术,比如说:Docker.微服务架构.Kafka.Amazon云服务.Elasticsearch.机器学习.数据挖掘等.下面开始介绍. IFTTT简介 各种各样的互联网服务如社交.相册.云存储.笔记.邮箱等等都在不同程度上融入了人类的工作与日常生活,但是不同的服务之间往往互不相干,以至于我们的信息都被碎片化放在了不同的地方.正是IFTTT的出现才使得这些互联网服务"相互打通".扯了这么多,先看一下IFTTT是什么. IFTT

解密 Uber 数据团队的基础数据架构优化之路

如果你用过Uber,你一定会注意到它的操作是如此的简单.你一键叫车,随后车就来找你了,最后自动完成支付,整个过程行云流水.但是,在这简单的流程背后其实是用Hadoop和Spark这样复杂的基础大数据架构来支撑的. Uber 在现实世界和虚拟世界的十字路口有令人羡慕的一席之地.这令每天在各个城市穿行的数十万司机大军趋之若鹜.当然这也会一个相对浅显的数据问题.但是,就像Uber数据部门的主管 Aaron Schildkrout所说:商业计划的简单明了带给Uber利用数据优化服务的巨大机会. “这本质

数据仓库的架构与设计

公司之前的数据都是直接传到Hdfs上进行操作,没有一个数据仓库,趁着最近空出几台服务器,搭了个简陋的数据仓库,这里记录一下数据仓库的一些知识.涉及的主要内容有: 什么是数据仓库? 数据仓库的架构 数据仓库多维数据模型的设计 1. 什么是数据仓库 1.1 数据仓库的概念 官方定义 数据仓库是一个面向主题的.集成的.随时间变化的.但信息本身相对稳定的数据集合,用于对管理决策过程的支持. 这个定义的确官方,但是却指出了数据仓库的四个特点. 特点 面向主题:数据仓库都是基于某个明确主题,仅需要与该主题相

大数据入门小知识

之前写过大数据入门小知识和大数据入门小知识进阶篇,今天为大家带来大数据入门小知识高阶篇. 推荐一个大数据学习群 119599574晚上20:10都有一节[免费的]大数据直播课程,专注大数据分析方法,大数据编程,大数据仓库,大数据案例,人工智能,数据挖掘都是纯干货分享,你愿意来学习吗? 大数据入门小知识高阶篇,主要讲述的是因为大数据而衍生出来的一系列技术与科技创新. 说到因为大数据而衍生出来的一系列技术与科技创新,相信我们首先都会想到人工智能(Artificial Intelligence),英文

五个顶级的大数据架构

五个顶级的大数据架构 自从像AWS这样的公共云产品开辟了大数据分析功能以来,小企业通过挖掘大量的数据做到只有大企业才能做到的事情,至今大约有10年时间.这些事情其中包括网络日志.客户购买记录等,并通过按使需付费的方式提供低成本的商品集群.在这十年中,这些产品蓬勃发展,涵盖了从实时(亚秒级延迟)流媒体式分析到用于分析批量模式工作的企业数据仓库,而企业数据仓库则可能需要数天或数周才能完成. 以下将介绍用于大数据堆栈的五个最有用的架构,以及每个架构的优点,以便更好地理解和权衡.此外,还对成本(按$ -

五个顶级的大数据架构----大数据程序员必修课

自从像AWS这样的公共云产品开辟了大数据分析功能以来,小企业通过挖掘大量的数据做到只有大企业才能做到的事情,至今大约有10年时间.这些事情其中包括网络日志.客户购买记录等,并通过按使需付费的方式提供低成本的商品集群. 自从像AWS这样的公共云产品开辟了大数据分析功能以来,小企业通过挖掘大量的数据做到只有大企业才能做到的事情,至今大约有10年时间.这些事情其中包括网络日志.客户购买记录等,并通过按使需付费的方式提供低成本的商品集群.在这十年中,这些产品蓬勃发展,涵盖了从实时(亚秒级延迟)流媒体式分

数据分析的数据架构知识详解(一)

大家都知道,数据分析师一门比较高深的学问,并且对于各行各业都有一个很大的帮助.但是大家知道不知道数据分析的数据架构知识呢?数据架构的知识有很多,下面就由小编为大家解答一下这个问题,希望这篇文章能够给大家带来帮助. 就目前而言,很多的数据分析工作都是做的是隐藏工作,说白了就是隐藏在业务系统背后,但是具有非常重要的作用,数据分析的结果对决策.对业务发展有着举足轻重的作用.就目前而言,数据分析的工作已经开始越来越流行了.数据挖掘.数据探索等专有名词的曝光度越来越高,但是在大数据分析系统大行其道之前,数