我所经历的大数据平台发展史(一):非互联网时代 ? 上篇

编者按:本文是松子(李博源)的大数据平台发展史系列文章的第一篇(共四篇),本系列以独特的视角,比较了非互联网和互联网两个时代以及传统与非传统两个行业。是对数据平台发展的一个回忆,对非互联网、互联网,从数据平台的用户角度、数据架构演进、模型等进行了阐述。

前言,这个数据平台发展史仅是自己经历过由传统数据平台到互联网数据平台发展一些简单回忆,文章引用了历史项目 & 平台规划架构,在这里不做更深入描述。

我是从 2000 年开始接触数据仓库,大约 08 年开始进入互联网行业,那时在互联网接触到数据平台与传统第三代数据架构还是有很大的类似之处,随着互联网的突飞猛进,每一次的技术变革都带来一场从技术、架构、业务的渐进式变革,到今天互联网、非互联网的数据平台架构已经差异非常大。

回顾早期的企业环境,企业的生产与服务是一个很长周期,导致业务数据呈现一种粗粒度模式。随着互联网的快速渗透从早期的 PC 终端到“裆下“的 移动终端,对用户的需求与服务周期将逐渐的缩短,业务量级、数据类型多样化与存储的暴增,对应着技术、架构、业务呈现出迅猛发展,相应的数据沉淀与积累也成指数暴涨。

从”数据仓库“ 词开始到现在的“大数据”,中间经历了太多的知识、架构模式的演进与变革,比如说“数据仓库、海量数据、大数据”等。(备注:数据仓库一般指的是:在相当长的时间内堆积数据,仅仅需要处理大量数据请求中的少部分的系统。数据仓库不等同于“海量数据” 。恰恰相反,而是其子集。海量数据也包含:通过大量的连接提供每秒百万次服务请求的系统。大数据是海量数据 + 复杂类型数据基础上的大分析、高宽带、大内容)。

数据仓库在国外的发展史多年,大约在 98-99 年左右进入中国,到现在历了大约十多年发展。到了今天尤其是在非互联网、互联网企业两个领域数据平台有显著的区别。 本文将以非互联网时代、互联网时代数据平台发展角度来讲述。

很多从传统企业数据平台转到互联网同学是否有感觉,非互联网企业、互联网企业的数据平台所面向用户群体是不同的?这两类的数据平台的建设、使用用户又有变化?数据模型设计又有什么不同呢?

我们先来看用户群体的区别,下边整理了 2 个图来讲述用户群体相关区别。

一、用户群体

非互联网数据平台用户:

(点击放大图像)

  • 企业的 boss、运营的需求主要是依赖于报表、商业智能团队的数据分析师去各种分析与挖掘探索;
  • 支撑这些人是 ETL 开发工程师、数据模型建模、数据架构师、报表设计人员 ,同时这些角色又是数据平台数据建设与使用方。
  • 数据平台的技术框架与工具实现主要有技术架构师、JAVA 开发等。
  • 用户面对是结构化生产系统数据源。

互联网数据平台用户:

(点击放大图像)

  • 互联网企业中员工年龄比非互联网企业的要年轻、受教育程度、对计算机的焦虑程度明显比传统企业要低、还偶遇其它各方面的缘故,导致了数据平台所面对用户群体与非互联网数据平台有所差异化;
  • 互联网数据平台的使用与建设方是来自各方面的人,数据平台又是技术、数据产品推进建设的。
  • 分析师参与数据平台直接建设比重增加。
  • 原有的数据仓库开发与模型架构师的职能也从建设平台转为服务与咨询.
  • 用户面对是数据源多样化,比如日志、生产数据库的数据、视频、音频等非结构化数据 。

从这用户群体角度来说这非互联网、互联网的数据平台用户差异性是非常明显,互联网数据平台中很多理论与名词都是从传统数据平台传递过来的,本文将会分别阐述非互联网、互联网数据平台区别。

(点击放大图像)

非互联网时代

自从数据仓库发展起来到现在,基本上可以分为五个时代、四种架构(大家可以详细翻一下数据仓库的发展历史,在这里仅作科普性介绍)

  • 约在 1991 年前的全企业集成
  • 1991 年后的企业数据集成 EDW 时代
  • 1994 年 -1996 年的数据集市
  • 1996-1997 年左右的两个架构吵架
  • 1998 年 -2001 年左右的合并年代

五个时代划分是以重要事件或代表人物为标志,比如说在企业数据集成 EDW 时代其重要代表人物是 Bill Inmon 代表作数据仓库一书,更重要是他提出了如何建设数据仓库的指导性意见与原则。他遵循的是自上而下的建设原则,这个导致后来数据仓库在千禧年传到中国后的几年内,几个大实施厂商都是遵守该原则的实施方法,后来的数据仓库之路等各种专业论坛上针对数据仓库 ODS-EDW 的结构讨论 (备注:坛子里有个叫吴君,他发表了不少这方面的文章)。

在国内项目实施中 IBM、Terdata、埃森哲、菲奈特 (被东南收购,东南后来某些原因而倒闭) 等很多专业厂商在实施中对 ODS 层、EDW 层都赋予了各种不同的功能与含义 (备注:在后边的架构案例解)。

在数据集市年代其代表人物是 Ralph kilmball,他的代表作是”The Data Warehouse Toolkit“,在数据仓库的建设上 Ralph kilmball 提出的是自下而上的建设方法,刚好与 Bill Innmon 的建设方法相反,这两种架构方式各有千秋,所以就进入了争吵时代。

我整理了一个表格是这两位大师优缺点:

(点击放大图像)

随着数据仓库的不断实践与迭代发展,从争吵期进入到了合并的时代,其实争吵的结果要麽一方妥协,要麽新的结论出现,果然 Bill inmon 与 Ralph kilmball 的争吵没有结论,干脆提出一种新的架构包含对方,也就是后来 Bill Inmon 提出的 CIF(corporation information factory) 架构模式、这也算是数据仓库的第三代架构,其架构特点是把整个架构划分为不同层次,把每一层次的定义与功能都详细的描述下来,从 04 年后国内的很多数据仓库架构、甚至互联网刚开始搞数据平台数据仓库架构模式也是这一种。

(点击放大图像)

数据仓库第一代架构

(开发时间 2001-2002 年)

海尔集团的一个 BI 项目,架构的 ETL 使用的是 微软的数据抽取加工工具 DTS,老人使用过微软的 DTS 知道有哪些弊端,后便给出了几个 DTS 的截图。

功能:进销存分析、闭环控制分析、工贸分析等

硬件环境:

  • 业务系统数据库:DB2 for Windows,SQL SERVER2000,ORACLE8I
  • 中央数据库服务器:4*EXON,2G,4*80GSCSI
  • OLAP 服务器:2*PIV1GHZ,2G,2*40GSCSI
  • 开发环境:VISUAL BASIC,ASP,SQL SERVER 2000

(点击放大图像)

(点击放大图像)

(点击放大图像)

(点击放大图像)

数据仓库第二代架构

(点击放大图像)

这是上海通用汽车的一个数据平台,别看复杂,严格意义上来讲这是一套 EDW 的架构、在 EDS 数据仓库中采用的是准三范式的建模方式去构建的、大约涉及到十几种数据源,建模中按照某一条主线把数据都集成起来

这个数据仓库平台计划三年的时间构建完毕,第一阶段计划构建统统一生性周期视图、客户统一视图的数据,完成对数据质量的摸底与部分实施为业务分析与信息共享提供基础平台。第二阶段是完成主要业务数据集成与视图统一,初步实现企业绩效管理。第三阶段全面完善企业级数据仓库,实现核心业务的数据统一。

在第一阶段数据仓库中的数据再次通过阶梯型高度聚合进入到数据集市 DM(非挖掘集市)中,完成对业务的支撑。

数据的 ETL 采用 datastage 工具开发(备注 大约 06 年我写了国内最早的版本 datastage 指南 大约 190 页叫“datastage 学习版文档”。后来没再坚持下来)。

数据集市架构

(点击放大图像)

(点击放大图像)

这个是国内某银行的一套数据集市,这是一个典型数据集市的架构模式、面向客户经理部门的考虑分析。

数据仓库混合性架构 (Cif)

(点击放大图像)

(点击放大图像)

这是太平洋保险的数据平台,目前为止我认识的很多人都在该项目中呆过,当然是保险类的项目。

回过头来看该平台架构显然是一个混合型的数据仓库架构。它有混合数据仓库的经典结构,每一个层次功能定义的非常明确。

ODS 层 支撑单一的客户视图,是一个偏操作行的做唯一客户识别的,同时提供高可用户性客户主信息查询。

EDW 层基于 IIW(IBM 的通用模型去整理与实施)最细粒度、原子、含历史的数据,也支持查询。

各业务数据集市 (DM) 面向详细业务,采用雪花 / 星型模型去做设计的支撑 OLAP、Report、仪表盘等数据展现方式。

新一代架构 OPDM 操作型数据集市 (仓库)

OPDM 大约是在 2011 年提出来的,严格上来说,OPDM 操作型数据集市(仓库)是实时数据仓库的一种,他更多的是面向操作型数据而非历史数据查询与分析。

在这里很多人会问到什么是操作型数据?首先来看操作型数据支持的企业日常运作的比如财务系统、Crm 系统、营销系统生产系统,通过某一种机制实时的把这些数据在各孤岛数据按照业务的某个层次有机的自动化整合在一起,提供业务监控与指导。在 2016 年的今天看来 OPDM 在互联网很多企业已经实现了,但是在当时的技术上还是稍微困难点的。

原文地址:https://www.cnblogs.com/Little-Li/p/11177635.html

时间: 2024-09-29 00:56:46

我所经历的大数据平台发展史(一):非互联网时代 ? 上篇的相关文章

(转)我所经历的大数据平台发展史(二):非互联网时代 ? 下篇

编者按:本文是松子(李博源)的大数据平台发展史系列文章的第二篇(共四篇),本系列以独特的视角,比较了非互联网和互联网两个时代以及传统与非传统两个行业.是对数据平台发展的一个回忆,对非互联网.互联网,从数据平台的用户角度.数据架构演进.模型等进行了阐述. 前言,”数据模型“ 这个词只要是跟数据沾边就会出现的一个词,在数据库设计.数据仓库.数据挖掘上.业务里都存在,聚焦一下,这里提到的是数据平台中的”数据模型“. 这是一个非常的抽象词,个人也很难用简单语言把他描述出来,这一章也是整个系列中较为抽象的

(转)我所经历的大数据平台发展史(四):互联网时代 ? 下篇

编者按:本文是松子(李博源)的大数据平台发展史系列文章的第四篇(共四篇),本系列以独特的视角,比较了非互联网和互联网两个时代以及传统行业与非传统行业.是对数据平台发展的一个回忆,对非互联网.互联网,从数据平台的用户角度.数据架构演进.模型等进行了阐述. 在互联网时代被弱化的数据模型 谈起数据模型就不得不提传统数据平台架构发展,我相信很多朋友都晓得传统数据平台的知识,其架构演进简单一句话说“基本上可以分为五个时代.四种架构”,但是到了互联网时代因为大数据快速膨胀与数据源类型多样化特点,从高阶架构上

(转)我所经历的大数据平台发展史(三):互联网时代 ? 上篇

编者按:本文是松子(李博源)的大数据平台发展史系列文章的第二篇(共四篇),本系列以独特的视角,比较了非互联网和互联网两个时代以及传统与非传统两个行业.是对数据平台发展的一个回忆,对非互联网.互联网,从数据平台的用户角度.数据架构演进.模型等进行了阐述. 前言,本篇幅将进入大家熟知的互联网时代,数据平台发展史仅是自己经历过由传统数据平台到互联网数据平台发展一些简单回忆,在这一篇章中将引用部分互联网数据平台架构,在这里仅作案例. 我相信很多从传统行业转到互联网时是各种不适应,适应短则几个月,长则一年

我所经历的大数据平台发展史(四):互联网时代 ? 下篇

本文是松子(李博源)的大数据平台发展史系列文章的第四篇(共四篇),本系列以独特的视角,比较了非互联网和互联网两个时代以及传统行业与非传统行业.是对数据平台发展的一个回忆,对非互联网.互联网,从数据平台的用户角度.数据架构演进.模型等进行了阐述. 在互联网时代被弱化的数据模型 谈起数据模型就不得不提传统数据平台架构发展,我相信很多朋友都晓得传统数据平台的知识,其架构演进简单一句话说“基本上可以分为五个时代.四种架构”,但是到了互联网时代因为大数据快速膨胀与数据源类型多样化特点,从高阶架构上来看大约

Spark大型项目实战:电商用户行为分析大数据平台

本项目主要讲解了一套应用于互联网电商企业中,使用Java.Spark等技术开发的大数据统计分析平台,对电商网站的各种用户行为(访问行为.页面跳转行为.购物行为.广告点击行为等)进行复杂的分析.用统计分析出来的数据,辅助公司中的PM(产品经理).数据分析师以及管理人员分析现有产品的情况,并根据用户行为分析结果持续改进产品的设计,以及调整公司的战略和业务.最终达到用大数据技术来帮助提升公司的业绩.营业额以及市场占有率的目标. 1.课程研发环境 开发工具: Eclipse Linux:CentOS 6

【阿里在线技术峰会】李金波:企业大数据平台仓库架构建设思路

摘要: 在阿里巴巴在线在线技术峰会上的第三天,来自阿里云高级技术专家李金波为大家题为<企业大数据平台仓库架构建设思路>.本次分享中,李金波主要从总体思路.模型设计.数加架构.数据治理四个方面介绍了如何利用大数据平台的特性,构建更贴合大数据应用的数据仓库. 本文根据阿里云高级技术专家李金波在首届阿里巴巴在线峰会的<企业大数据平台仓库架构建设思路>的分享整理而成.随着互联网规模不断的扩大,数据也在爆炸式地增长,各种结构化.半结构化.非结构化数据的产生,越来越多的企业开始在大数据平台下进

企业大数据平台下数仓建设思路

免费开通大数据服务:https://www.aliyun.com/product/odps 介然(李金波),阿里云高级技术专家,现任阿里云大数据数仓解决方案总架构师.8年以上互联网数据仓库经历,对系统架构.数据架构拥有丰富的实战经验,曾经数据魔方.淘宝指数的数据架构设计专家. 与阿里云大数据数仓结缘 介然之前在一家软件公司给企业客户做软件开发和数仓开发实施,数仓开发和实施都是基于传统的基础架构.2008年加入阿里进入淘宝数据平台部后,他开始接触分布式计算平台Hadoop. 初始时在Hadoop平

【MDCC 2015】友盟数据平台负责人吴磊:移动大数据平台的架构与实践

转自: http://www.csdn.net/article/2015-10-20/2825962 [MDCC 2015]友盟数据平台负责人吴磊:移动大数据平台的架构与实践 [CSDN现场报道]10月14日-16日,“ 2015移动开发者大会 · 中国” (Mobile Developer Conference China 2015,简称MDCC 2015)在北京新云南皇冠假日酒店隆重举行.本次大会由全球最大中文IT社区CSDN和中国最具关注度的全方位创业平台创新工场联合主办,以“万物互 联,

首次公开!单日600PB的计算力--阿里巴巴EB级大数据平台的进击

摘要: 每年的双11之前,也是MaxCompute各种乾坤大挪移落定的时候,因为双11就是各种大折腾项目的自然deadline.在今年双11之前,一路向北迁移和在离线混部项目,将杭州集群除蚂蚁外整体迁移到张北,涉及了绝大部分的业务project.数据存储和计算任务,为今年双十一大数据计算服务的保障带来了挑战. 作者:阿里巴巴计算平台 高级技术专家 迎辉 MaxCompute作为阿里巴巴的主力计算平台,在2018年的双11中,再次不负众望,经受住了双11期间海量数据和高并发量的考验.为集团的各条业