数据仓库知识与实战——电信运营商数仓建模

作者:网舟科技——王超

什么是数据仓库

数据仓库是为企业提供聚合,存储,投递,以及提供决策支持能提,数据仓库包含广泛数据并按照主题进行存储并且是在数据仓库流程过程中的一个部分。Willianm(Bill) H. Inmon提出过一个概念:”一个面向主题的,集成的,时间序列变化的以及不易更改的数据的集合为管理者们的决策过程提供支持”。

总体架构上,数据仓库设计人,过程和技术去实现提供一致性,集成化,标准化以及易于理解的决策支持数据的目标。

数据仓库是什么,不是什么

一个数据仓库是一个数据的仓库,数据仓库里的数据是其他数据介质可操作数据的副本,这些数据通常是从多个数据源获取的,并且是对决策支持有用的,而不是最原始的数据。

“数据仓库”,并不是数据库的别称,数据仓库的数据也并不只是由历史数据所构成,数据仓库里的数据也包含分析数据和报告数据,也可以交易数据,(些数据是有应用系统所管理的数据,并不存在于数据仓库之中)。

数据仓库架构组件

数据仓库的技术架构包括:数据源,ETL,和数据访问接口。

数据仓库架构组件

数据仓库技术栈列表:


基础架构的基础设施

数据仓库技术栈是构建在硬件和软件框架之上的。


使用数据仓库应用或者专用的数据库基础设施来帮助我们构建数据仓库,这些技术上旨在提供高性能。这些数据仓库应用以最优的形式提供数据库服务,使用MMP架构,它们包括具有一些特有功能的紧密耦合的计算机,以及可访问的存储设备进行并行执行,专有的功能包含:系统控制,数据库访问,数据加载,数据备份。

数据仓库应用有超高的性能,他们有着比传统数据库高100倍的性能。

数据架构

数据架构是企业数据管理的蓝图,并且有一些概念,这些概念是:数据治理,数据质量,ILM,数据框架,元数据和含义,主要数据,最后是商业智能.


数据流

该图显示了数据如何在数据仓库系统中流动。数据首先来自数据源,例如库存系统(存储在数据仓库和操作数据存储中的系统)。数据存储被格式化以公开数据市场中的数据,然后使用BI和分析工具访问这些数据市场。


数据

数据是我们获得理解的原材料。它是数据建模、统计和数据挖掘中的关键元素。它是金字塔的基础。

数据的特征:


数据监控

三个层次的数据建模是按顺序来的:

概念数据模型——使用实体、属性和关系描述问题的高级模型。

逻辑数据模型——用业务术语描述解决方案的详细数据模型,它还使用实体、属性和关系。

物理数据模型——定义数据库对象(如表和列)的详细数据模型。需要这个模型来实现数据库中的模型并生成一个有效的解决方案。

实体

实体是任何实体的核心部分概念和逻辑数据模型。实体是企业感兴趣的对象可以是一个人,组织、地点,活动,事件,抽象,或者想法。实体在数据模型中表示为矩形。把实体看作单数名词。


属性

属性是一个实体的特征。属性被归类为主键、外键、备用键和非键,如图所示。


关系

关系是实体之间的联系。通过在相关实体之间划一条线来描绘这种关系。下图描述了两个实体——客户和订单——它们之间的关系。

基数

基数指定可能参与给定关系的实体的数量,表示为一对一、一对多或多对多,如下例所示:


基数被表示为最小和最大值。在下面的第一个例子中,一个实例的实体的可能有一个实例实体B,B和实体必须有一个且只有一个实例的指定实体A .基数将符号的关系线附近的两个实体的关系。

在第二种情况下,实体A可能有一个或多个实体B的实例,而实体B必须有一个且只有一个实体A的实例。


规范化数据

规范化是一种组织的数据建模技术。将数据分解到最低水平,即,以避免重复。该方法用于设计数据仓库系统的原子数据仓库部分。以下是埃德加·f·科德(Edgar F. Codd)的前三个规范化级别。还有其他标准化级别,您可以在这里了解更多。当关系数据库达到第三个范式时,它被认为是规范化的。

原子数据仓库

原子数据仓库(ADW)是一个将数据分解为低级组件以准备输出到数据集市的区域。ADW的设计采用了标准化和快速载入和记录历史的方法。

ADW被组织成具有逻辑键和支持跟踪更改和快速加载/插入的可变数据的不变数据。使用一个整数作为主代理键。然后添加有效日期来跟踪更改。


关联实体

使用具有有效日期和过期日期的关联实体跟踪实体之间的关系历史。


原子DW特有属性

使用专门的属性来提高ADW的效率和有效性。使用ADW_前缀标识这些属性。


多维数据库

维度数据库是为查询和分析优化的数据库,不像原子数据仓库那样进行规范化。它由事实和维度表组成,其中每个事实都连接到一个或多个维度。

销售订单事实表:

日历日期、产品、客户、地理位置和销售组织的维度将销售订单事实放入上下文中。这个星型模式支持以立方体的方式查看订单,支持根据客户、时间和产品进行切片和切割。


事实

事实是数据仓库中的信息单元,也是多维空间中的一个单元,受分析单元的限制。事实存储于一张表中(当使用关系数据库时)或者是多维数据库中的一个单元。每个事实包括关于事实(销售额,销售量,成本,毛利,毛利率等)的基本信息,并且与维度相关。在某些情况下,当所有的必要信息都存储于维度中时,单纯的事实出现就是对于数据仓库足够的信息。

一个事实所包含的内容有表名,主键,和度量。


事件事实例子:

事件事实记录单个事件,如金融交易、销售、投诉或发货。


快照事实:

快照事实捕获项目在某个时间点的状态,例如总账余额或库存水平。


累积快照的事实:

累积快照事实将累积的数据(如今年迄今的数据量)添加到快照事实中。

聚合的事实:

汇总事实提供汇总信息,比如一段时间内的总账,或者每个商店每月的每个产品的投诉。


更多的事实:

无事实的事实跟踪维度之间的联系,而不是数量度量。例如里程,活动出席和促销活动。


维度

维度是一个数据库表,其中包含识别和分类的属性。这些属性作为报告的标签和汇总的数据点。在维度模型中,维度围绕并限定事实。

日期和时间维度:

日期维度支持趋势分析,包括日期及其相关的周、月、季和年。时间维度用于分析每日业务量。


多维角色:

一个维度可以扮演多个角色。日期维度可以扮演快照日期、项目开始日期和项目结束日期的角色。


退化维度:

退化维度有一个维度键,没有维度表。示例包括交易号、发货号和订单号。


数据集成

数据集成是一种移动数据或在数据存储之间提供数据的技术。数据集成过程可以包括提取、移动、验证、清理、转换、标准化和加载。

ETL:

在数据集成的ETL模式中,数据从数据源中提取,然后在传输到staging数据库时进行转换。然后将数据加载到数据仓库中。ETL非常适合批量数据的批处理。


ELT:

在数据集成的ELT模式中,数据从数据源中提取,并在不进行转换的情况下加载到staging中。在此之后,数据将在staging中进行转换,然后加载到数据仓库中。

这种类型的集成以及使用视图/查询作为转换部分将帮助数据更快地为最终用户所用。

CDC:

数据集成的CDC模式在事件处理中非常强大。包含数据库更改记录的数据库日志将在登台时实时复制。然后将这些信息转换并加载到数据仓库


CDC是支持实时数据仓库的一项重要技术。

**
实际案例

中国电信电子渠道深度运营--数据仓库篇**

为运营商提供专业、高水平的流量经营服务,包括客户洞察细分研究、流量业务常态营销支撑、运营监控分析、客户挖掘建模、培训等一系列服务,网舟科技以客户需求为牵引,帮助运营商提升流量业务精细化运营能力和互联营销能力。

网舟科技提供基于精准用户行为分析的舆情监控(行业洞察)、竞争对手分析、精准营销等服务,为企业进行营销决策提供数据支撑。

维度:

页面地址,访问时间戳,屏幕分辨率,来源类型,来源类型,关键字搜索,搜索引擎,城市代码,产品信息,浏览器,操作系统,新老访客,页面名称。

通过对运营商业务的深入分析我们根据几个主题进行维度的建模,例如时间序列,产品相关维度,用户基本行为维度,以及广告推广和外链等几大维度进行对业务的深入分析。

量度:

浏览量,访客,访问量,跳出率,退出率,平均逗留时长,实际订单,转化率,点进次数,搜索次数,搜索退出率,搜索点击结果率,搜索无结果率,搜索无结果次数

我们将用户所关心的主题将主题包含的维度和量度进行构建数据立方体,用户和业务分析人员可以通过不同层面进行数据挖掘和探索来提高获取数据信息中所体现的数据价值。

数据报告:

PS:网舟科技长期专注于金融保险、通信、航空、互联网、旅游酒店等行业的电子渠道大数据运营,为客户提供全球领先的电子渠道转型咨询、大数据挖掘和应用定制服务,助力客户互联网转型,提升数字化运营和数据营销能力。

原文地址:http://blog.51cto.com/13835433/2145178

时间: 2024-11-09 09:55:53

数据仓库知识与实战——电信运营商数仓建模的相关文章

运营商数据的价值与架构

运营商作为数据管道,本身拥有众多的数据资源,具有天然的优势,但如何能够有效利用发挥其价值依然面临种种挑战. 本讲座首先分析运营商数据的优缺点,分析运营商数据在营销领域的应用需求,把这些要求转化成系统需求:系统面临的关键问题及解决方案:分布在运营商机房的 数据异构及系统异构,用户识别,内容识别,数据安全,应用效果的有效验证等方面介绍方案:结合案例介绍数据应用效果及方案的有效性:最后,对未来运营商数 据的应用前景进行展望. 听众受益: 1. 运营商数据的优点及缺点在营销领域应用方向,亚信作为运营商数

C#反射基础知识和实战应用

首先来说一下什么是反射? 反射提供了封装程序集.模块和类型的对象(Type类型) 可以使用反射动态的创建类型的实例,将类型绑定到现有对象,或从现有对象中获取类型,然后,可以调用类型的方法或访问其字段和属性 . 总之,有了反射,以前很多实现不了的功能都可以实现. 下面先来写一个小例子,体验一下反射是怎么一回事: 打开VS2010,新建一个控制台应用程序,在program.cs里面写代码 首先引入命名空间: using System.Reflection; 下如下代码: PropertyInfo l

知识图谱实战开发案例剖析(2)

一.前言 这是系列博文<知识图谱实战开发案例剖析>第1部分:知识图谱基础,第2节:知识图谱和人工智智能.该系列内容同时已经录制成视频课程,感兴趣的可以访问网易云课堂. 微信技术交流群: 作者:张子良,版权所有,转载请注明出处.QQ技术交流群:149933712. 二.正文 2.1 人工智能的业务架构 人工智能的业务架构 感知能力:听清: 认知能力:听懂: 服务能力:响应: 2.2 人工智能的技术架构 三大层:基础设施层.技术框架层.应用服务层: 2.3 人机对话系统业务模型 三.未完待续 系列

SpringBoot知识体系实战-前言

介绍:就像每本书都有前言一样,接下来我也为我即将分享的SpringBoot知识体系实战系列文章做一个前言介绍.作为现在微服务体系主流的框架,我想诸位都知晓SpringBoot,SpringCloud,打开Spring官网(官网链接)会发现SpringBoot已经是Spring开发团队重点推荐的核心技术之一!可想而知,其主流趋势已很明显! 目的:我接下来要撰写的SpringBoot知识体系实战系列文章,虽然可能会跟现在网上诸位大牛分享的有些相似,在此若有雷同之处还敬请谅解!有些看官可能会问,那你撰

Java__线程---基础知识全面实战---坦克大战系列为例

今天想将自己去年自己编写的坦克大战的代码与大家分享一下,主要面向学习过java但对java运用并不是很熟悉的同学,该编程代码基本上涉及了java基础知识的各个方面,大家可以通过练习该程序对自己的java进行一下实战. 每个程序版本代码中,都附有相关注释,看完注释大家就可以对本程序设计有个很明显的思路.真的很有趣,想对java重新温习的同学完全不必再对厚厚的java基础书籍进行阅读了,在跟着本次代码练习并分析后,大家一定会对java各方面基础知识 尤其是线程的知识有更深一步的了解!!! 本次坦克大

SpringBoot知识体系实战-定时器篇

实战前言:定时任务我想诸位童鞋都不陌生,简而言之名为"设定定时闹钟做某件事情",在这里我将以订单模块作为实战为例! 需求分析:在企业级应用中,经常打交道的业务应当属于订单模块了,下面将基于这样的场景实战定时器:将业务级别的订单表A中发生更新的数据 每天定时 同步到报表级别的订单表B中(为了给数据分析部门做报表)!其定时执行的业务流程如下图所示: 实现思路:①.核心逻辑其实你会发现在于"拉取A表的数据以及更新到报表级别的订单表B中";②.实现①流程之后,接下来其实是定

Python3分布式爬虫(scrap+redis)基础知识和实战详解

背景 随着业务需求的变化,大规模爬虫遇到各种问题.python爬虫具有先天优势,社区资源比较齐全,各种框架也完美支持.爬虫性能也得到极大提升.本次分享从基础知识入手,涉及python 的两大爬虫框架pyspider.scrapy,并基于scrapy.scrapy-redis 做了分布式爬虫的介绍(直接粘贴的ppt截图)会涉及 redis.mongodb等相关知识. 一.前沿 1.1 爬虫是什么? 网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本.

电信运营级高清视频直播源码商业合作或出售

非red5 fms等开源流媒体服务,系统内核采用C/C++语言开发 拥有成型的跨平台开发类库 类微吼等国内知名的手机视频直播平台  支持android/ios/pc发起直播等 延时秒级 支持高清 直播系统支持轻松接入商城.社交平台,支持手机视频直播购物等 支持IM聊天 群组等类微信app聊天   支持朋友圈等功能 linux服务 支持分布式级联部署  支持一到两台主控SERVER,N台视频SERVER 主控SERVER管理视频SERVER,所有视频SERVER的网络状况,都被主控服务器监控. 主

数仓建模

基本概念: DW (Data Warehouse) 是一个面向主题的(Subject Oriented), 集成的(Integrated), 相对稳定的(Non-Volatile), 反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support). ODS (Operational Data Store) 是一个面向主题的, 集成的, 可变的, 当前细节数据集合. 用于支持企业对于即时性的, 操作性的, 集成的全体信息的需求. 与数据仓库(