干货丨一组图详解元数据、主数据与参考数据

[转载] http://www.cbdio.com/BigData/2016-02/16/content_4617126.htm

在数据资产管理领域,有着许多相似的概念和词汇。譬如说“数据管理”和“数据治理”,像孪生兄弟一样让人纠结不已。上周,与一个朋友聊起元数据、主数据和参考数据的关系是什么。这个话题我们足足聊了二十分钟。这三个概念我在一开始做数据管理相关工作的时候也纠结了挺久,于是我根据聊起来的内容稍稍总结了一下,就有了这篇文章,希望能给读者减少些许疑惑。

1、假设场景

我们的假设场景先是这样的,现在正在为中国地理协会设计一个中国地理信息系统(当然真实的地理信息系统不会是这样,都说只是假设一下)。我现在正设计到“地市”这个对象。常说“千言万语不及一图”,这三者的关系咱们先上图。

2、元数据--数据的数据

元数据(meta-data)是描述企业数据的相关数据,指在IT系统建设过程中所产生的有关数据定义,目标定义,转换规则等相关的关键数据,包括对数据的业务、结构、定义、存储、安全等各方面对数据的描述。

例如在假设场景中,我们设计了地市表的数据模型(如上图红色框里面表示),地市表这个实体的数据模型如何进行定义正是元数据所关心的范畴。

元数据可以说是企业的数据地图,它直接反映了企业中有什么样的数据,数据是如何存放的,例如,数据结构是什么样子,数据与业务之间的关系是怎么样,数据与数据之间的关系是怎么样,数据有什么样的安全需求,数据有什么样的存储需求。

针对元数据的管理,对于传统企业数据而言是非常重要的一项管理挑战。因为传统企业技术和管理观念上有所缺失,从而导致了许多问题。因此,我们在进行许多传统企业数据治理或者数据管理项目,也就是元数据管理方面时,常常会先从数据模型梳理着手。

3、主数据--企业黄金数据记录

主数据(main data)主要是指经实例化的企业关键数据。

还是回到我们的假设场景,我们在上面设计完成数据模型设计的“城市表”中填写了相应的城市数据,例如,北京、上海、广州、南宁等等。这些在城市表中填充的数据,正是组织中国地理协会的主数据,因为这些数据是中国地理协会这个组织的关键业务实体,它为组织的业务开展提供关联环境,而且它可能在企业业务开展过程中被反复引用。针对这些核心关键数据,组织和企业无论从数据的质量、一致性、可用性、管理规范等方面都应该有着最严格的数据要求。

那么一般而言,以下涉及企业经营的人、财、物的数据最有可能纳入企业主数据管理的范畴,例如

企业产品及其相关信息:包括企业相关产品、服务、版本、价格、标准操作等等

企业财务信息:包括业务、预算、利润、合同、财务科目等等

企业相关利益相关者:如客户、供应商、合作伙伴、竞争对手等

企业组织架构:如员工、部门等

可见,主数据就是企业被不同运营场合反复引用关键的状态数据,它需要在企业范围内保持高度一致。它可以随着企业的经营活动而改变,例如,客户的增加,组织架构的调整,产品下线等;但是,主数据的变化频率应该是较低的。所以,企业运营过程产生过程数据,如生产过程产生各种如订购记录、消费记录等,一般不会纳入主数据的范围。当然,在不同行业,不同企业对主数据有不同的看法和做法,正如我们与国内大型航空企业的实施相关数据项目时,也在为航班动态是不是主数据而纠结不已。

因此,有鉴于主数据对于企业的重要性,企业和组织需要对其主数据进行有效的管理:包括理解主数据应用需求,识别主数据来源及源头,梳理主数据上下游关系,数据整合和发布,提升主数据的数据质量等。

4、参考数据--数据的字典

在本文引用的假设案例中,我们将会注意到刚才填写的地市这类数据有些列,如省份、城市类型等。如果没有缺少上下文的环境,我们是无法理解其具体含义,这时候我们往往引入参考数据(reference data)加以解释和理解,如下图红色标注所示。

参考数据是增加数据可读性、可维护性以及后续应用的重要数据。例如,你看到“性别”的这个字段,很可能是1代表男性、2代表女性。在许多企业中有这样的约定俗成,而更多的参考数据可能记录在开发人员和运营人员的大脑当中。但问题是一旦这些人离开,您系统里面的数据就成了一堆没有注释的天书。

大家可能觉得,这所谓参考数据不就是数据字典吗?对,我们在很多系统里面都会有这样和那样的数据字典。但是正是由于这些数据字典局仅限于个别系统而没有统一标准,从一个侧面间接造就了大量的数据孤岛。企业为了进行更有效率的数据整合、数据共享和数据分析应用,开始尝试对参考数据进行企业或者部门层面的整合和管理,利用参考数据集记录系统尝试为范围内的IT系统中的数据库提供统一的参考数据。

5、小结

主数据则是真实的企业业务数据,是企业的关键业务数据。

参考数据则是对数据的解释,针对一些数据范围和取值的数据解释,让人们容易读取相关的数据。

元数据是对数据的描述,用于描述企业数据的所有信息和数据,如结构、关系、安全需求等,除增加数据可读性外,也是后续数据管理的基础。

一般而言,企业中这三类数据与其它数据的数据量、质量需求,更新频率、数据生命周期的关系大致如下图:

作者简介:

梁铭图,DAMS架构师精英群专家,新炬网络首席架构师。

拥有十年以上数据库运维、数据分析、数据库设计以及系统规划建设经验。

长期为国内电信运营商的大型IT系统进行系统软件维、数据架构规划、设计和实施以及大型IT系统数据建模工作,在数据架构管理以及数据资产管理方面有着深入的研究。

时间: 2024-10-09 18:19:50

干货丨一组图详解元数据、主数据与参考数据的相关文章

(转)CAS (4) —— CAS浏览器SSO访问顺序图详解(CAS Web Flow Diagram by Example)

CAS (4) —— CAS浏览器SSO访问顺序图详解(CAS Web Flow Diagram by Example) tomcat版本: tomcat-8.0.29 jdk版本: jdk1.8.0_65 nginx版本: nginx-1.9.8 cas版本: cas4.1.2cas-client-3.4.1 参考来源: jasig.github.io:CAS protocol CAS (1) —— Mac下配置CAS到Tomcat(服务端) CAS (2) —— Mac下配置CAS到Tomc

SPI总线协议及SPI时序图详解

SPI,是英语Serial Peripheral Interface的缩写,顾名思义就是串行外围设备接口.SPI,是一种高速的,全双工,同步的通信总线,并且在芯片的管脚上只占用四根线,节约了芯片的管脚,同时为PCB的布局上节省空间,提供方便,正是出于这种简单易用的特性,现在越来越多的芯片集成了这种通信协议.SPI是一个环形总线结构,由ss(cs).sck.sdi.sdo构成,其时序其实很简单,主要是在sck的控制下,两个双向移位寄存器进行数据交换. 上升沿发送.下降沿接收.高位先发送.上升沿到来

JavaScript 作用域链图详解

<script type="text/javascript"> /** * 作用域链: */ var a = "a"; function hao947(){ var b = "b"; alert(a);// output a alert(b);// output b // alert(c);// output undefind function hao(){ var c = "c"; alert(a);// out

一张图详解Linux中的top命令

一张图详解Linux中的top命令及每个参数的含义:

useradd思维导图详解

useradd思维导图详解 本思维导图,用来说明Linux的的用户和群组的详细关系. Xmind文件和预览图: 思维导图文件用Xmind软件打开,下载链接:useradd详解.rar 预览图: Linux笔记分享,如有错误之处,欢迎留言指正,谢谢!

Rsync服务配置详解,实现服务器间数据同步!

1.1 什么是rsync? rsync是Unix下的一款应用软件,它能同步更新两处计算机的文件与目录,并适当利用差分编码以减少数据传输.rsync中一项与其他大部分类似程序或协议中所未见的重要特性是镜像对每个目标只需要一次传送.rsync可拷贝/显示目录属性,以及拷贝文件,并可选择性的压缩以及递归拷贝. 在常驻模式(daemon mode)下,rsync默认监听TCP端口873,以原生rsync传输协议或者通过远程shell如RSH或者SSH伺服文件.SSH情况下,rsync客户端运行程序必须同

CentOS7安装nagios并配置出图详解

目录 开始之前 系统环境 监控内容 所需软件包 Centos7重要变化 配置开发环境 同步时间 关闭Selinux 使用CRT上传软件包 安装邮件服务 监控主机安装 常用到的命令 安装nagios所需要的运行环境 增加用户 安装nagios 配置权限 安装插件 安装nrpe 远程主机安装 常用到的命令 配置运行环境 安装nagios-plugin 安装nrpe 启动nrpe. 监控主机安装PNP 配置开发环境 安装php4nagios (版本号为0.6) 配置pnp4nagios 图表展示 问题

[转载] 多图详解Spring框架的设计理念与设计模式

转载自http://developer.51cto.com/art/201006/205212_all.htm Spring作为现在最优秀的框架之一,已被广泛的使用,51CTO也曾经针对Spring框架中的JDBC应用做过报道.本文将从另外一个视角试图剖析出Spring框架的作者设计Spring框架的骨骼架构的设计理念. AD: Spring作为现在最优秀的框架之一,已被广泛的使用,51CTO也曾经针对Spring框架中的JDBC应用做过报道.本文将从另外一个视角试图剖析出Spring框架的作者

【Oracle】Oracle Database 12c Release 2安装多图详解

1.1 下载安装包 oracle官网地址请自行百度oracle,51CTO内容限制不让我放!1)打开官方网站,找到下载连接,如图所示.2)选择更多下载.3)选择数据库版本,这里选择的是目前的最新版本4)接收许可协议,选在linux版本进行下载5) 接收许可协议,点击linuxx64_12201_database.zip6)登陆oracle账没有的可以自己创建一个7)然后就能够进行下载 1.2 安装过程详解 注意oracle的安装需要在图形化界面中进行安装(也可选择命令行模式静默安装,非常繁琐不推