数据中台专栏(三):数据质量分析及提升


本文作者:笑天


袋鼠云数据解决方案专家。拥有10余年IT行业开发和管理等企业服务经验,精通大型项目的开发和管理,曾就职于英特尔、索尼等世界500强企业,参与过英特尔,索尼,三星,华为等公司的大型项目的开发和咨询工作。近几年主攻大数据方向,包括数据中台建设、大数据治理、工业领域的数据应用等项目开发和实施。

正文:正文


大量的信息成倍增加,但有用的信息却非常有限。

信号是真相,噪声却使我们离真相越来越远。


——《信号与噪声:大数据时代预测的科学与艺术》

[美]纳特·西尔弗

一般情况下,企业都有多套的业务系统,一些大型企业甚至会有上百套的业务系统。这些业务在不同时期由不同的团队开发完成。因此,这些业务系统都参考着不同的标准生产各自数据。由于滥用缩写词,惯用语,数据输入错误,重复记录,丢失值,拼写变化,不同的计量单位,大量应用系统产生的大量数据是脏数据。这些脏数据是没有意义的,根本就不可能为以后的数据挖掘决策分析提供任何支持。这就是数据质量问题的由来。

一般来说数据质量问题有四个因素造成:

从上述的四因素来说,管理因素和流程因素属于组织管理范畴,信息因素和技术因素属于技术范畴。所以,要改进数据质量问题,要从组织管理和技术两方面入手,才能从根本上,最佳地解决数据质量问题。

从方法论的角度,从组织管理上去改进质量,我们能做的是:

  • 确立组织数据质量改进目标
  • 评估组织流程
  • 制定组织流程改善计划
  • 实施改进
  • 评估改善效果

从技术上去改进数据质量,我们能做的是:

  • 数据分析
  • 数据评估
  • 数据清洗
  • 数据监控
  • 错误预警

当我们谈到数据质量改进的时候,我们必须要有一个数据质量评价标准,有了评价标准,我们才能知道如何评价数据的质量,才能把数据质量量化,并知道改进的方向和改进的效果。

目前业内认可的数据质量的六大标准是:

用户可以把每个标准作为六边形的顶点,把你的数据该标准下的质量作为0-100分的点,在图的中心是0,在六边形的顶点是100分,把数据质量点连起来,围城的面积S就是用户数据质量的情况。

通常在业务系统存在两大类型数据:主数据和行为数据。主数据是描述事物主体的数据比如人,商品等,行为数据围绕主数据描述的事物发生的行为数据比如交易订单数据,日志数据等。所以,数据治理的改进的核心在于主数据质量改进,只有改进了主数据质量,才能有可能把整体业务数据质量提升上去。

主数据质量治理的目标是把各个业务系统低质量的基础数据,经过质量治理,形成统一规范的主数据,然后反馈给业务系统和其他数据应用系统使用。

  • 让数据规范起来(得到所有相关人员的认可——元数据)

  • 得到一份标准的数据(主数据)
  • 建立一套体系来维护数据(主数据管理体系——数据治理)

当然,解决这个问题不仅仅只有主数据一个方法,也可以在建设企业信息系统的时候就从全局考虑,借助业务中台建设全局共享的业务服务中心,在业务服务中心的设计中确保基础数据的统一。但当前的现实情况是,大多数企业经过多年的信息化建设,已经积累了大量的烟囱式信息系统,按照业务中台的思路,彻底推倒重建的成本巨大。所以主数据管理也是解决企业当前基础数据不统一的可行方案。

对主数据的质量进行改进,需要从以下几个方面入手:


数据质量改进流程图

1. 了解数据现状

当前有多少数据?数据模型是什么样子?涉及到哪些业务部门和角色?有什么样的维护流程和体系?数据在哪个或者哪些系统中录入?数据如何流转?数据质量如何?共享质量如何?

...

可通过以下两种方式对当前数据现状进行调研了解:

管理流程调研:管理流程调研按照人员,组织,客商,物料,产品,资产,项目以及合同等分成多个子项目。根据企业需要,选择一些做调研。

基础数据调研:主要是调研的是当前的数据在哪里?哪个部门管?怎么管?数据量有多大?数据格式是什么?数据质量如何?

2. 设计数据模型

数据定义是什么?数据到底有几个模型?每个模型中有几个字段?每个字段的含义是什么?这里主要讨论基础的数据建模,即确定主数据的属性数量,名称,属性数据类型及长度等信息。

主数据定义:定义需要明确和清晰。定义关系到数据范围和数据量,关系到与其他主数据的关系。比如人员主数据是指所有与**公司签署了正式劳动合同的人员。人员主数据是从企业管理视角出发的人员实体的数字化描述。

主数据中表的颗粒度:是用一张表还是多张表描述实体,这决定主数据中表与表之间存在1:1,1:N,N:M的各种关系。

主数据中字段属性的颗粒度:根据实际的业务需求,定义字段属性的颗粒度,颗粒度细,则数据量大。反之,则少。

遵循的原则:权威原则、全局性原则、共享性原则、扩展性原则。

3. 制作主数据管理方案

哪个部门,哪个岗位,在什么时候,依据什么进行主数据维护?

  • 建立数据管理的虚拟组织,找到对数据负责的人。每个主数据都要有一个或者多个业务部门对数据负责,不是信息中心。信息中心仅对数据本身负责。
  • 定义数据管理组织的管理职责。针对每个数据的每个字段,都应当回答,谁,在什么场景,依据什么,是否多人和有流程对内容进行管理和维护。

4. 数据清洗方案

当前存在的数据如何变成标准主数据的过程。

  • 责任部门负责数据清洗和对数据质量负责,其他部门进行协助
  • 根据数据质量情况决定组织模式,必要时需要“运动会”模式
  • 提前就数据要求,填报规范做充分培训
  • 采用大数据平台做清洗的技术手段,可以有无限扩张的计算和存储能力,很好的解决清洗数据中的计算资源消耗问题

5. 主数据管理技术方案

数据流向方案

数据的入口在哪里,主数据系统中的数据分发给哪些系统

系统支持方案

数据在哪个系统中录入

系统集成方案

主数据服务规范,第三个系统改造内容

随着互联网时代的来临,企业面对的数据已经远远不是简单的业务数据,而是来自网络和各种设备的大量结构化和非结构化数据即大数据(Big Data)。通常来说大数据质量往往比业务系统产生的主数据的质量还要差,当然也需要治理。

大数据的质量改进主要是通过数据中台的数据清洗,ID Mapping等技术来解决。

数据的质量治理有七大原则:

袋鼠云作为一家企业数据整体解决方案提供商,有一套完整的企业数据解决方案,尤其在数据治理方面,不仅提供数据质量治理的咨询服务,也提供相应的数据质量治理的产品,数栈。

关于数栈,我们下期再讲。

原文地址:http://blog.51cto.com/13766600/2132488

时间: 2024-10-10 10:46:22

数据中台专栏(三):数据质量分析及提升的相关文章

袋鼠云数据中台专栏2.0 | 数据中台综述:三个维度看数据中台

一.关于数据中台的9个名词 数据中台是什么,当前有很多解释,但是它一定不是哈姆雷特. 新兴的事物总会被各种解读,但是当人们足够熟悉了以后,总会有一个公允的定义得到广泛的认可和接受.这个过程中,最可以用于度量的便是「功能定义」与「业务价值」.袋鼠云认为,数据中台表现出的最主要特征是一种企业数据化体系的架构,而且就目前而言,这种架构是最为有效的一种架构. 目前很多人把数据中台直接等同于企业数据化,AI和大数据,或者是直接的业务价值,甚至企业变革(比如新零售).这些都是不准确的,数据中台的价值被过于放

袋鼠云数据中台专栏2.0 | 企业数字化建设三范式

袋鼠云数据中台专栏V2.0 数据中台如何定义? 企业数据化与数据中台的关系是什么? 数据中台如何支撑企业战略转型? 袋鼠云近两年来,先后为国内数十家大型龙头企业提供数据中台咨询与实施落地服务,积累了大量的实战经验,同时也在为客户服务的过程中,不断完善和升华自身的数据中台理论体系和实践方法论.希望通过后续文章的分享,与诸位读者交流,共同加快企业全面数据化进程. 本专栏每周更新1-2篇,敬请期待~ 袋鼠云数据中台专栏V2.0 Vol.04,企业数字化建设三范式 1 笔者的职业生涯是从研发岗位开始的,

数据中台专栏(五):数栈,企业级一站式数据中台PaaS

本文作者:江枫 袋鼠云CTO,花名江枫,本名宁海元. 2007年加入淘宝,曾是双十一大促技术指挥部成员,"去IOE"数据库负责人.打造过千亿级实时日志平台.手机淘宝日志分析创始人.阿里云数加平台技术创始人. 正文: 2014年还在阿里云的时候,内部有一个5K+的项目,集合了当时CDO的多支团队在北京联合关小黑屋,希望能够将内部广泛使用的一套大数据开发工具打造成在公共云上对外服务的大数据PaaS.事后来看,这个项目当时有很多争执,也算不上多成功,尤其是和前一个名字类似的5K项目相比,有点

袋鼠云数据中台专栏2.0 | 企业数据化认知:数据就是生产力!

关于袋鼠云数据中台专栏V2.0 数据中台如何定义?企业数据化与数据中台的关系是什么?数据中台如何支撑企业战略转型? 袋鼠云近两年来,先后为国内数十家大型龙头企业提供数据中台咨询与实施落地服务,积累了大量的实战经验,同时也在为客户服务的过程中,不断完善和升华自身的数据中台理论体系和实践方法论.希望通过后续文章的分享,与诸位读者交流,共同加快企业全面数据化进程. 本专栏每周更新1-2篇,敬请期待~ 正文 一. 数据就是生产力.笔者两年前在袋鼠云做的国内某省一个交警项目上,面对着海量的车辆轨迹数据时,

袋鼠云数据中台专栏2.0 | 数据中台之数据集成

关于袋鼠云数据中台专栏V2.0 数据中台如何定义?企业数据化与数据中台的关系是什么?数据中台如何支撑企业战略转型?袋鼠云近两年来,先后为国内数十家大型龙头企业提供数据中台咨询与实施落地服务,积累了大量的实战经验,同时也在为客户服务的过程中,不断完善和升华自身的数据中台理论体系和实践方法论.希望通过后续文章的分享,与诸位读者交流,共同加快企业全面数据化进程.本专栏每周更新1-2篇,敬请期待~ 数据中台之数据集成 1 在现代企业中,由于使用场景.业务形态.技术选型.开发架构的差异,往往有多个异构的.

袋鼠云数据中台专栏(七):用户标签体系建设的四字箴言

本文作者:子玺 袋鼠云数据中台解决方案专家.拥有近10年大数据从业经验,拥有PMP项目管理资格认证,精通数据类项目的开发实施和管理.曾服务过国家工商总局.北京市工商局.北京市财政局.广州开发区大数据局.平湖人社局.海盐人社局等行政单位,担任多个大型数据项目的数据应用咨询顾问/项目经理. 正文: 一.什么是用户画像?什么是标签? 当我们从互联网时代逐渐步入大数据时代后,企业及消费者行为不可避免地要面临一系列改变与重塑.其中最大的变化莫过于,消费者的一切行为在企业面前似乎都将是「可视化」的,然而,「

袋鼠云数据中台专栏2.0 | 企业三界:业务界面,应用界面,数据界面

关于袋鼠云数据中台专栏V2.0 数据中台如何定义?企业数据化与数据中台的关系是什么?数据中台如何支撑企业战略转型? 袋鼠云近两年来,先后为国内数十家大型龙头企业提供数据中台咨询与实施落地服务,积累了大量的实战经验,同时也在为客户服务的过程中,不断完善和升华自身的数据中台理论体系和实践方法论.希望通过后续文章的分享,与诸位读者交流,共同加快企业全面数据化进程. 本专栏每周更新1-2篇,敬请期待~ 正文 一.企 业 三 界 本篇文章阐述「企业业务」.「企业信息化」,「企业数据化」三者之间的关系. 界

袋鼠云数据中台专栏(六):企业数据指标的那些事儿

本文作者:子玺 袋鼠云数据中台解决方案专家.拥有近10年大数据从业经验,拥有PMP项目管理资格认证,精通数据类项目的开发实施和管理.曾服务过国家工商总局.北京市工商局.北京市财政局.广州开发区大数据局.平湖人社局.海盐人社局等行政单位,担任多个大型数据项目的数据应用咨询顾问/项目经理. 一.企业指标体系的重要性不言而喻 在我们谈论指标之前,先将时间倒推几十年,现代管理学之父彼得·德鲁克说过一句很经典的话:如果你不能衡量它,那么你就不能有效增长它.所谓衡量,就是需要统一标准来定义和评价业务,这个标

奇点云数据中台技术汇 | 数据治理——企业数字化转型的基石

1 为什么要进行数据治理? 首先,数据是有价值的.根据埃森哲发布的"2035年之前各行业的平均GDP增长率",单纯看自然增长,制造行业只有2.1%,但是通过数据以及由此衍生出来的人工智能加成之后,这个数字就晋升到第二名4.4%,数据的价值是相当可观的. 但是,数据的应用环境是有风险的.Facebook的个人隐私泄露事件,直接导致Facebook市值缩水640亿美元,扎克伯格也受到国会质询. 此外,数据的应用环境是低效的.为什么数据的应用环境是低效的?一是数据不可知,用户不知道自己有哪些