数据集成之主数据管理(一)基础概念篇

数据集成是当下比較热门的话题,相关的产品和平台也越来越多。非常多CIO都在各种数据集成平台和产品之间犹豫不决。因此对数据集成平台的框架体系有全面的理解,对各个厂家产品所提供的功能有深入的认识才干为数据平台选型的决策提供可靠的保证。

我有幸參与了国内一个知名企业的集成平台的设计工作,并主导了数据集成平台的需求分析和产品选型工作。这次工作中,研究了非常多新的技术方向和产品,以下我主要讲一下数据集成领域的一种新兴的产品平台主数据管理平台MDM(Master Data Management)。

主数据的概念

首先介绍一下什么是主数据。这里借用其它站点的一个数据分类模型,我们能够看到有元数据(metadata),引用数据(Reference Data),主数据(Master Data),企业结构数据(Enterprise structure Data),交易活动数据(Transaction Activity Data),交易审计数据(Transaction Audit Data)这六大类数据。

简要解释一下这六大类的数据,关于这些数据分类的定义能够在网上非常easy的找到。

元数据:数据的数据,平时我们设计表时,大部分属性字段就是元数据。比方,性别,国籍,出生省份等。这个是最接近自然意义的的数据。

引用数据:元数据的可能取值范围,我们设计表时所说的数据字典往往就是引用数据。比方,性别仅仅能是男和女,男和女就是引用数据。国家的引用数据就是世界上这100多个国家和地区;

主数据:在我们数据库设计中最重要的一些实体,是由元数据和引用数据实例的集合。DMReview 专栏作家 Jane Griffin 将主数据定义为“...用于为核心业务实体创建和维护全企业‘记录系统’,以记录业务交易并评定这些实体的业绩所需的信息。”平时我们常碰到的客户信息,产品信息都属于主数据。对于主数据的介绍,我们会在后面具体展开说明。

企业结构化数据:企业业务中所需的数据实体 ,可能是多个主数据的集合。不同行业的结构化数据会有非常大不同。

交易活动数据:主数据之间活动产生的数据。比方客户购买产品的交易记录就是交易活动数据,工厂生产产品,生产记录也是交易活动数据。

交易审计数据:我们对数据的全部活动都通过交易审计数据进行记录。比方我们对客户信息改动的操作,对交易的添加?和删除操作,这些活动在非常多关键系统(比方银行)都须要记录,以合符对应法规的要求(如 Basel II、萨班斯—奥克斯利法案)。

下图中数据模型中的蓝色越深代表语义相关性越强和数据质量越重要,而黄色越深代表数据的数据数量越多、更新的频率越快、实时抓取的数据越快、数据的生命越短。下图能够看到,元数据的数据语义性最强,差点儿不更新,数据量最少,生命周期最长。

http://www.dmreview.com/issues/20060401/1051002-1.html

主数据是企业应用系统中最主要的业务单元,以下是一段英文的原文:Master Data are the fundamental business data in the company, typically long-lived and used across multiple applications

Core Master Data are operational entities, supporting all fundamental business activity transactions being executed on this level. The Core Master data are common and shareable within the organization。

我认为非常好理解,比方一个产品系统,它处理的基本数据就是生产数据。HR系统处理的基本数据是雇员;CRM系统是客户

一般来说核心主数据包括:Customers, Contracts, Suppliers, Distributors/Partners,Employees等等。

另外,各个行业对于主数据的管理的需求和期望会有非常大不同,因此行业经验对于主数据管理也是非常重要的。

主数据管理的概念

从上面的介绍可以了解,主数据并非什么新的概念,但为什么之前没有主数据管理的产品呢?事实上,解释这个问题和解释数据集成出现的原因非常相似。由于之前主数据依附于各个单独的业务系统,比方HR, ERP,SCM,企业的站点,商业合作伙伴的系统都可能对某一个主数据有存储,比方某个产品。问题随之来了,如系统间数据编码不一致;数据的冗余;某些系统数据的不完整。举个实际的样例,假设我们新建一个BI的系统,那么有可能我须要从生产系统,財务系统,物流系统,企业合作伙伴系统多个系统拿到一个完整的关于主数据的信息。显然,须要一种解决方式,可以提供一个单一的主数据訪问接口,以提高主数据訪问的效率;为企业的市场、销售、客户关系管理等活动提供可靠的数据,提高企业的敏捷性。

 

主数据管理:主数据管理是数据管理的一种高级形式,它必须构建于ETL或者EII(Enterprise Information Integration)等技术之上,因此非常多主数据管理平台本身就包括了数据抽取、数据载入、数据转换、数据质量管理、数据复制和数据同步等功能。也有某些厂商把MDM作为数据集成产品的一个模块交付给客户。

无主数据管理时对主数据訪问

主数据分散在各个系统造成的问题:

数据在各个系统冗余,造成数据訪问繁琐;编码不统一; 数据不同步,缺乏一致性;

给企业业务带来了例如以下影响:

延误产品面市时间;产品供不应求;不准确的订单交付 ;销售效能低下;客户惬意度减少;生产力减少。

有主数据管理平台时对主数据的訪问的图示

主数据管理平台带来的优点:

有统一的主数据訪问平台;企业可以提供一致的完整的共享信息平台;集中的内容丰富和干净的数据中心;为使用数据的应用,企业业务流程和决策系统提供了一个真实的数据訪问通道。

我个人感觉MDM平台建立之后,最受益的还是BI相关的应用。

主数据管理平台的功能模块

Master Repositories(主数据资源库)::X-Ref DB, Masters DB, Master Data Applications;

Data Quality(数据质量保证):源数据的质量检查,从源数据系统传输到数据缓储区的全部数据都应首先接受质量检查后才干导入,源数据的质量检查应包含接口数据文件格式是否标准化的确认、文件大小确认,记录数、文件生成时间的确认等内容; ETL系统质量检查,包含对主外键关系、编码规范的检查。每次数据的抽取、转换和载入都必须有完整的日志记录,并在载入完毕后确认记录数前后一致。

Data enrichment(数据深度分析,关联性分析):企业内部分析;

System Integration(集成组件):主数据管理器;服务总线(提供data service);异常处理;映射(mapping)/转换(Transforming)/载入(loading);数据交换(Data exchange);同步流程(Workflow);Business System;元数据/主数据訪问控制;数据录入控制;数据採集;管理/安全

主数据管理平台项目的实施

和非常多集成项目一样,项目的实施最重要的是制定好业务的策略和规划,业务人员,业务需求和行业专家对数据的理解和分析是关键,技术平台仅仅是我们思想实现的重要工具,不会起决定性的作用。

提供主数据管理平台的产商

传统ERP厂商:SAP和ORACLE都基于自己的产品经验,在它们的ERP套装软件产品中添?了主数据管理产品。基于他们行业的经验,他们的产品有比較完整的主数据管理比較好的数据模型和主数据管理的经验。Oracle基于自身在CRM和制造行业的深厚经验,提供很全面的客户主数据产品UCM8.0和制造业主数据产品PIM12.0,

中间件厂商:TIBCO有专门的MDM产品,我看到的是他们一年前的产品介绍,感觉功能还比較欠缺,缺少非常多重要的功能,当然我还没有时间研究他们最新的产品。

ORACLE在MDM产品上有着比較明白的战略和路线图。在收购BEA后,相信在MDM产品上,ORACLE会结合原本就功能强大的 ODI 工具,加上BEA在数据集成领域产品的特点,基于自己原有的行业经验,提供更全面的产品,巩固自己在中间件产品的率先地位。

IBM收购了一个MDM产品,我一向不太愿意研究IBM的产品,所以也没有发言权。我Software AG(WebMethod)做的也能够,有专门的产品,功能也相对完好。但在实施团队的力量上,要差一些。

oracle产品的资料能够在这里下载:http://wmdata.com.cn/oracle/iwom-OFM/index.asp?frm=woohooli

对于主数据管理平台,我会在以后的博客里面深入一些细节问题进行探讨。欢迎有兴趣的朋友提宝贵意见。

数据集成之主数据管理(一)基础概念篇,布布扣,bubuko.com

时间: 2024-12-28 15:52:05

数据集成之主数据管理(一)基础概念篇的相关文章

台湾最佳医院信息化及管理实践-个案管理师之概念篇

曾志仁原著,袁永福编辑整理 前言 很荣幸能向各位医疗行业的同仁介绍台湾医院的一些管理经验和实践.客观的讲,台湾更好的继承和保留了中华民族传统文化,同时台湾深受美国和日本的影响,这样台湾文化是中西方文化的结合,这使得台湾的医院管理也很有特色,有很多经验值得大陆医疗行业学习和借鉴的. 笔者有幸结识台湾台中的中山大学附属医院曾志仁医师,他本身是一个医术精湛的妇科癌症专科医生,同时对医院信息化和医院管理的造诣也很深,是比较少见的跨界高手.对于医院管理有着成套的理解和实践,本系列文章所包含的知识产权大部分

分布式学习——基础概念篇

概述 最近这段时间一直在看分布式有关的东西,但是关于分布式自己还是不能很好的理解,所以本文对分布式基础概念进行下学习. 分布式处理 首先先了解一下分布式处理,分布式处理和集中式处理正好是相反的的体系架构,集中传输集中到式处理顾名思义就是将所有的信息都一个统一的信息中心进行处理:分布式处理就是将不同地点的,或具有不同功能的,或拥有不同数据的多台计算机利用通信网络连接起来,让各个计算机各自承担同一个工作任务的不同部分,在控制中心的管理下,同时运行,共同完成同一个工作任务. 提到分布式处理就不能不提到

EF基础概念篇

EF自己包括看视频,看MSDN零零散散的学了一点皮毛,这次打算系统学习一下EF.我将会使用VS2012来学习这个EF基础系列. 现在看看EF的历史吧: EF版本 相关版本特性介绍 EF3.5 基本的对象关系映射,支持DB First 方式(Basic O/RM support with Database First approach.) EF4.0 支持简单传统CLR对象(Plain old CLR Object),懒加载,可测试的改进,可以自定义代码的生成,支持ModeFirst: (POCO

云计算之--------基础概念篇

背景: 2015年开始一度火爆的TOP10热词中,一定少不了"云计算(cloudcomputing)",其官方解释是基于互联网的相关服务的增加.使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源.云是网络.互联网的一种比喻说法.过去在图中往往用云来表示电信网,后来也用来表示互联网和底层基础设施的抽象.因此,云计算甚至可以让你体验每秒10万亿次的运算能力,拥有这么强大的计算能力可以模拟核爆炸.预测气候变化和市场发展趋势.用户通过电脑.笔记本.手机等方式接入数据中心,按自己的需求

DNA拷贝数变异CNV检测——基础概念篇

一.CNV 简介 拷贝数异常(copy number variations, CNVs)是属于基因组结构变异(structural variation),根据大小可分为两个层次:显 微水平(microscopic)和亚显微水平(submicroscopic).显微水平 的基因组结构变异主要是指显微镜下可见的染色体畸变, 包括 整倍体或非整倍体.缺失.插入.倒位.易位.脆性位点等结构变 异.亚微水平的基因组结构变异是指 DNA 片 段 长 度 在 1Kb-3Mb 的基因组结构变异, 包括缺失.插入

Python_基础概念篇

author:lxy Python简介 1.Python是一种脚本语言,Python就是一个开放核心源代码的编程语言,它开发代码的效率非常高,代码编写后非常易读,非常适合多人参与的项目 .它支持面向对象的编程方式,同样也可以面对过程,非常灵活,它不但免费,而且可以任意Copy分发. Python是由荷兰人Guido van Rossum在90年代开发出来的,当初只是为了自娱自乐尝试编写一种替代ABC这些编程语言的脚本语言,没想到受到大家的喜欢,一直发展至今,后来引入了对多平台的支持. 2.Pyt

kafka-通俗易懂基础概念篇

一些大的网站如果想统计用户的访问情况,如果每个用户的访问,都在后端经过一系列的用户行为分析,然后再给客户返回结果这显然不现实,直接写入数据库,数据库也扛不住, 这时候就需要一个消息系统,在用户一个请求过来后,服务器只需要把这次操作扔到后端,不用管后端的处理结果,直接返回给用户结果,这样用户体验才比较好,比较符合实际情况 Kafka是一个分布式的消息系统,作为用户来说,只需要把数据扔给kafka,在需要的时候直接读就可以了,非常方便,实现异步非io阻塞 kafka分为productor,consu

【转载】主数据管理(MDM)与元数据管理

主数据(Master Data)和元数据(Meta Data)是两个完全不同的概念.元数据是指表示数据的相关信息,比如数据定义等,而主数据是指实例数据,比如产品目录信息等.比如,某省地税开发了一套 征收管理软件,以市为单位部署了17套,每套征收管理软件中的元数据都是一样的,但是主数据还是需要进行管理的.主数据管理和传统数据仓库解决方案不是一 个概念,数据仓库会将各个业务系统的数据集中在一起在进行业务的分析,而主数据管理系统不会把所有数据都管理起来,只是把需要在各个系统间共享的主数据进 行采集和发

主数据管理和实施(转)

企业主数据是用来描述企业核心业务实体的数据,比如客户.合作伙伴.员工.产品.物料单.账户等:它是具有高业务价值的.可以在企业内跨越各个业务部门被重复使用的数据,并且存在于多个异构的应用系统中.本文将针对主数据管理的概念以及主数据管理解决方案的实施等方面跟大家作一个探讨. 4 评论: 娄丽军 ([email protected]), 软件架构师, EMC 2009 年 4 月 02 日 内容 在 IBM Bluemix 云平台上开发并部署您的下一个应用. 现在就开始免费试用 前言 企业主数据是用来