「数据治理那点事」系列之三:不忘初心方得始终,数据质量管理要稳住!

文 | 乐天(原创)未经许可,不可转载。

编辑 | 刘能 碳酸

本文约 3209 字,预计阅读时间 9 分钟

作者简介:蒋珍波(乐天),6 年+ 大数据咨询经验,擅长为客户提供科学合理的大数据解决方案。目前担任数澜科技咨询专家,负责数澜大数据平台售前咨询。

本文主要讲述数据治理中的重要工作:数据质量管理,从以下几个角度展开具体讲解:

(1)数据质量管理的目标

(2)质量问题产生的根源

(3)数据质量的评估

(4)数据质量管理的流程

(5)数据质量管理的取舍

一、数据质量管理的目标

数据质量管理主要解决「数据质量现状如何,谁来改进,如何提高,怎样考核」的问题。

「不忘初心方得始终」,在最开始的关系型数据库时代,做数据治理最主要的目的,就是为了提升数据质量,让报表、分析、应用更加准确。时至今日,虽然数据治理的范畴扩大了很多,我们开始讲数据资产管理、知识图谱、自动化的数据治理等等概念,但是提升数据的质量,依然是数据治理最重要的目标之一。

为什么数据质量问题如此重要?

因为数据如果要发挥其价值,关键在于其数据质量的高低,高质量的数据是一切数据应用的基础。假设一个组织根据劣质的数据分析业务、进行决策,那还不如没有数据。因为通过错误的数据分析出的结果往往会带来「精确的误导」,对于任何组织来说,这种「精确误导」都无异于一场灾难。

据统计,数据科学家和数据分析员每天有 30% 的时间浪费在了辨别数据是否是「坏数据」上,在数据质量不高的环境下,做数据分析可谓是战战兢兢。可见数据质量问题已经严重影响了组织业务的正常运营。通过科学的数据质量管理,持续地提升数据质量,已经成为组织内部刻不容缓的优先任务。

二、数据质量问题从何而来?

做数据质量管理,首先要搞清楚产生数据质量问题的原因。原因有多方面,比如在技术、管理、流程方面都会碰到。但从根本上说,产生数据质量问题的大部分原因在业务上,也就是管理不善。许多表面上的技术问题,深究下去,其实还是业务问题。

我在给客户做数据治理咨询的时候,发现很多客户很难发现产生数据质量问题的根本原因,仅仅局限于从技术角度来解决问题,希望通过购买某个工具就能解决质量问题,这当然达不到理想的效果。通过和客户交流以及双方共同分析之后,大部分组织都能认识到数据质量问题产生的真正根源,开始从业务方向着手解决数据质量问题了。

从业务角度着手解决数据质量问题,重要的是建立一套科学、可行的数据质量评估标准和管理流程。

三、数据质量评估的标准

当我们谈到数据质量管理的时候,我们必须要有一个数据质量评估的标准。有了这个标准,我们才能知道如何评估数据的质量,才能把数据质量量化,从而得出改进的方向、比较改进后的效果。目前业内认可的数据质量的标准有:

以上数据质量标准只是一些通用的规则,这些标准是可以根据数据的实际情况和业务要求进行扩展的,如交叉表校验等。

四、数据质量管理流程

要提升数据质量,需要以问题数据为切入点,注重问题的分析、解决、跟踪、持续优化、知识积累,形成数据质量持续提升的闭环。

首先需要梳理和分析数据质量问题,摸清楚数据质量的现状;其次针对不同的质量问题选择适合的解决办法,制定出详细的解决方案;同时要注重问题的认责,追踪方案执行的效果,监督检查,持续优化;最后形成数据质量问题解决的知识库,以供后来者参考。上述步骤不断迭代,形成数据质量管理的闭环。

很显然,要管理好数据质量,仅有工具支撑是远远不够的,必须要组织架构、制度流程参与进来,做到数据的认责,数据的追责。

五、数据质量管理的取与舍

企业也好,政府也好,从来不是生活在真空之中,而是被社会紧紧地包裹。解决任何棘手的问题,都必须考虑到社会因素的影响,做适当的取舍。

第一个取舍:数据质量管理流程。前面讲到的数据质量管理流程,是一个相对理想的状态,但是在不同的组织内部,实施的力度都是不同的,以数据追责为例:在企业内部推行还具有一定的可行性,但是对于政府而言就很难适用。因为政府部门的大数据项目,牵头单位无论是谁,很可能没有相关的权限。遇到这种问题,我们只能迂回地做些事情,尽量弥补因为某个环节缺失而带来的不利影响,比如和数据提供方一起建立起数据清洗的规则,对来源数据做清洗,尽量达到可用的标准。

数据追责的例子:你很难想像市经信委去跟市政府办公厅进行数据质量的问责,这与数据治理的建设方在整个大的组织体系中的话语权有很大的关系,这也就是我们做数据治理必须接受的现实。

第二个取舍:不同时间维度上的数据采取不同的处理方式。从时间维度上划分,数据主要有三类:未来数据、当前数据、历史数据。在解决不同种类的数据质量问题时,需要考虑取舍之道,采取不同的处理方式。

  1. 历史数据

当你拿着一堆历史问题数据,找信息系统的负责人给你整改,对方通常不会给你好脸色看,可能会以「当前的数据问题都处理不过来,哪有时间给你处理历史数据的问题」为理由,拒你以千里之外。这时候即使你找领导协调,一般也没有太大的作用。因为这确实是现实情况:一个组织的历史数据通常是经年累月的积累,已经是海量的规模,很难处理。那么难道就没有更好的办法了吗?——对于历史数据问题的处理,我们可以发挥技术人员的优势,用数据清洗的办法来解决;对于实在清洗不了的,我们要让决策者判断投入和产出的效益比。

从另一个角度来看:数据的新鲜度不同,其价值往往也有所区分。一般来说,历史数据的时间越久远,其价值越低。所以,我们不应该把最重要的资源放在历史数据质量的提升上,而是应该更多地着眼于当前和未来即将产生的数据。

  1. 当前数据

当前数据的问题,需要我们通过本文第四个章节讲过的——梳理和发现问题,分析问题,解决问题,问题认责、跟踪和评估等几个流程环节来解决,管理过程中必须严格遵循流程,避免脏数据继续流到数据分析和应用环节。

  1. 未来数据

管理未来的数据,一定要从数据规划开始,从整个组织信息化的角度出发,规划组织统一的数据架构,制定出统一的数据标准。借业务系统新建、改造或重建的时机,在创建物理模型、建表、ETL开发、数据服务、数据使用等各个环节遵循统一的数据标准,从根本上提升数据质量。这也是最理想、效果最好的数据质量管理模式。

通过对不同时期数据的不同处理方式,能做到事前预防、事中监控、事后改善,从根本上解决数据质量问题。

六、总结

提升数据质量,是数据治理最重要的目标之一。我们需要从三个方面着手解决数据质量问题:弄清楚数据质量问题产生的根源,建立一套科学合理的评估标准和管理流程,考虑到组织和数据的现状。

数澜科技的核心产品:一站式大数据平台「数栖」,集成了完善的数据质量管理功能,可以对表级、字段级的数据建立稽核规则,执行检查,生成数据质量报告,并融入到数据资产管理的闭环之中,帮助客户循环不断地提升数据质量。

<END>

数栖大会重磅来临!

(点击图片扫码,立即报名!)

原文地址:https://blog.51cto.com/13936314/2395712

时间: 2024-10-09 11:36:46

「数据治理那点事」系列之三:不忘初心方得始终,数据质量管理要稳住!的相关文章

「视频直播技术详解」系列之四:推流和传输

关于直播的技术文章不少,成体系的不多.我们将用七篇文章,更系统化地介绍当下大热的视频直播各环节的关键技术,帮助视频直播创业者们更全面.深入地了解视频直播技术,更好地技术选型. 在上一期中,我们介绍了讲解编码和封装. 本篇是<解密视频直播技术>系列之四:推流和传输.推流是直播的第一公里,直播的推流对这个直播链路影响非常大,如果推流的网络不稳定,无论我们如何做优化,观众的体验都会很糟糕.所以也是我们排查问题的第一步,如何系统地解决这类问题需要我们对相关理论有基础的认识. 本系列文章大纲如下: (一

「视频直播技术详解」系列之七:直播云 SDK 性能测试模型

?关于直播的技术文章不少,成体系的不多.我们将用七篇文章,更系统化地介绍当下大热的视频直播各环节的关键技术,帮助视频直播创业者们更全面.深入地了解视频直播技术,更好地技术选型. 本系列文章大纲如下: (一)采集 (二)处理 (三)编码和封装 (四)推流和传输 (五)延迟优化 (六)现代播放器原理 (七)SDK 性能测试模型 本篇是<视频直播技术详解>系列的最后一篇直播云 SDK 性能测试模型,SDK 的性能对最终 App 的影响非常大.SDK 版本迭代快速,每次发布前都要进行系统的测试,测试要

[原创.数据可视化系列之三]使用Ol3加载大量点数据

不管是百度地图还是高德地图,都很难得见到在地图上加载大量点要素,比如同屏1000的,因为这样客户端性能会很低,尤其是IE系列的浏览器,简直是卡的要死.但有的时候,还真的需要,比如,我要加载全球的AQI的测站和数据,这些站点在全球有4000多个,如何加载这些点并提高,OL3的ImageVector是一个很好地选择,简单的说,就是把这些要素渲染到一张图上,这样提高性能.代码如下: //加载JSON数据    mainxiu.loaddata=function(options)    {       

CGI原理解析系列之三----CGI如何完整获取WEB服务器数据

//模拟了服务器端 httpd 进程启动 cgi的过程, //完整展现了 get,post 方法支持 //gcc -g httpd_all.c -o httpd_all.ums; #include <stdio.h> #include <string.h> #include <unistd.h> #include <sys/wait.h> #include <stdlib.h> #define CGI_NAME "get_post.um

看看美团如何进行数据治理平台的建设与实践?

背景 作为一家高度数字化和技术驱动的公司,美团非常重视数据价值的挖掘.在公司日常运行中,通过各种数据分析挖掘手段,为公司发展决策和业务开展提供数据支持.经过多年的发展,美团酒旅内部形成了一套完整的解决方案,核心由数据仓库+各种数据平台的方式实现.其中数据仓库整合各业务线的数据,消灭数据孤岛:各种数据平台拥有不同的特色和定位,例如:自助报表平台.专业数据分析平台.CRM数据平台.各业务方向绩效考核平台等,满足各类数据分析挖掘需求.早期数据仓库与各种数据平台的体系架构如图1所示: 图1 酒旅早期各数

奇点云数据中台技术汇 | 数据治理——企业数字化转型的基石

1 为什么要进行数据治理? 首先,数据是有价值的.根据埃森哲发布的"2035年之前各行业的平均GDP增长率",单纯看自然增长,制造行业只有2.1%,但是通过数据以及由此衍生出来的人工智能加成之后,这个数字就晋升到第二名4.4%,数据的价值是相当可观的. 但是,数据的应用环境是有风险的.Facebook的个人隐私泄露事件,直接导致Facebook市值缩水640亿美元,扎克伯格也受到国会质询. 此外,数据的应用环境是低效的.为什么数据的应用环境是低效的?一是数据不可知,用户不知道自己有哪些

大数据运营之数据治理

数据治理包括:隐私.安全.合规性3个方面. 大数据价值创造的前提和基础是企业自身的数据以及全社会开放的数据,当数据开放为社会带来好处的同时,也同时因此了隐私侵犯问题.隐私是社会赋予个人或者企业的权利,隐私权受到法律的保护,因此,企业在利用大数据的同时,要首先考虑大数据应用是否会侵犯他人或者组织的隐私. 企业可以多种方式来解决隐私触犯问题. 对于企业向内部人员提供的大数据服务,可以通过数据权限保证隐私数据不被非法获取,如果企业内部用户具有获取隐私数据的权限,要进行数据使用行为的记录和跟踪.例如,电

【翻译】西川善司「实验做出的游戏图形」「GUILTY GEAR Xrd -SIGN-」中实现的「纯卡通动画的实时3D图形」的秘密,前篇(1)

http://www.4gamer.net/games/216/G021678/20140703095/ 新连载「实验做出的游戏图形」,是聚焦在特定游戏的图形上, 对它的结构和使用的技术解说为主旨.之前笔者连载的「西川善司的3D游戏入迷」,覆盖范围都很广,而与特定游戏强关联的技术解说,会在今后的新连载中处理. 作为纪念的第一回选择的,是Arc System Works开发的,2014年2月在街机上运作的格斗游戏「GUILTY GEAR Xrd -SIGN-」 全3D图形的GUILTY GEAR

「七天自制PHP框架」第三天:PHP实现的设计模式

往期回顾:「七天自制PHP框架」第二天:模型与数据库,点击此处 原文地址:http://www.cnblogs.com/sweng/p/6624845.html,欢迎关注:编程老头 为什么要使用设计模式? 设计模式,我的理解是为了达到"可复用"这个目标,而设计的一套相互协作的类. 感兴趣的读者可以阅读<Design Patterns: Elements of Reusable Object-Oriented Software>,四位作者(Gang of Four)在书中列举