《实体解析与信息质量》- 2.1.7 信息质量的演变

尽管信息质量是最近才被归并为一门学科,但是它在作用范围和意义上已经经历了好几个阶段的演变。分别是数据清洗,预防,产品概述和企业资产这几个阶段。

问题认知:数据清洗阶段

九十年代初期,在Inmon (1992),Kimball,
etal. (1998)
等人的共同努力下,来自于数据仓库运动中的大部分概念和当前的实践所形成的信息质量,开始变得普及起来。大多数组织机构都不知道如何处理操作性数据存储的质量不佳和数据之间的不一致性,直到他们开始尝试着将其整合成一个统一的数据存储仓库。

也正是在这个时候,这些组织机构开始意识到他们的数据大部分都是不正确的、不完备的、不一致的被呈现出来,并且经常是质量不佳的。导致这样的原因可能是从数据源头就是这样的一种状况,也可能是我们在尝试把这些数据源头合并在一起的过程中遭到了破坏。Redman(1998)概述了这个问题的严重程度,更为重要的是,这些关于信息质量相关的负面问题将在运营方式和战略层面上影响着他们的组织。

认识到信息质量对于企业运营的负面影响,继而衍生出了一个新的产业,即基于“清洗脏数据”的数据仓库 (English, 1999;Brackett,1996)。正是在这一时期,信息质量开始将问题集中在data
cleaning
上面,有时也被称为data hygienedata cleansing。在数据清理阶段,大部分的注意力都集中在使用ETL过程将来自于不同来源的数据进行标准化处理上,这样的处理不仅可以使这些数据被统一的合并到一个数据仓库中,还可以使数据的查询变得更为方便和有意义。正如Lindsey (2008) 所讲述的,一个早期参与产品交易的制造商,发现了在产品数据库中关于颜色beige的拼写差异将影响数据库返回关于查询条件”color equals beige”产生有意义的结果。

图2.7中,横线上方展示了一个企业的概念模型,它着重展示了关于数据模型和数据库模式是如何设计的一个信息结构。横线下方显示了一个信息操作系统的实现模型,包括获取数据源,处理数据,产生输出结果,其中的一个输出就是数据仓库。

图2.7     第一阶段:数据清洗

根源检测:预防阶段

图2.8展示了信息演变的一下个阶段,这一阶段开始利用制造业质量管理的相关原则。它侧重于寻找信息质量问题的根源,并尝试在第一时间内阻止这些数据被存入数据仓库。也正是在预防阶段,组织机构开始意识到简单的标准化处理并没有让他们得到正确的数据,所以他们需要在数据的准确性上投入更高的关注度。

图2.8  第二阶段:根源检测

信息作为产品阶段

信息质量的一个最重要的转折点是,它开始采用成熟的视角去看待信息,即信息是一个信息系统的产物,而不是一个副产品(Huang, Lee, Wang, 1999)。通过对“信息制造业”范式的了解,我们的数据源可以想象成原材料,处理程序可以作为一个产品制作流程,最后的输出也就是最终的产品。一个通用的全面质量管理(total quality managementTQM)原则就可以被应用到信息系统中,也就是全面数据质量管理(total data qualitymanagement TDQM)处理流程(Wang,
Kon, 1998)。

信息质量管理除了采用TQM的一些规则(如产品管理规则)外,信息做为产品还将关注度集中于用户和用户(客户)信息。在信息质量的清洗和预防阶段,注意力被集中在了用来衡量维度的数据条件上,像数据的准确性,完备性和一致性。在数据产品阶段,我们开始站在用户的角度上来理解产品,并将对数据的客观评价与用户对产品价值的评估联系了起来。例如,我们努力的去完善数据表中某一列数据的完整性,将之从80%增加到了90%,这或许是对内部信息质量测量的一个改善措施。但是,如果这一列的数据被导出到一个报表中,而使用该报表的用户并不认为这份报告对达到信息质量的目标有任何的附加价值,那么从产品角度来看,信息质量就没有提升。

图2.9从信息产品角度来看待信息质量,概况了整个信息的生产过程,包括所有MC3利益相关者:管理人员、收集者、托管人和消费者。在这一阶段,数据管控(data government DG)的概念和实践也应运而生了。

图2.9       第三阶段:信息作为产品阶段

信息作为资产

如今信息越来越被视为一种企业的资产,信息质量正在进入一个新的阶段。在这一阶段,信息质量在企业中也从原来的一个被动的角色起到了一定的积极作用。在信息识别、预防和产品阶段,信息质量很大程度上是认为一个被动的角色,信息质量的方法和实践总是从系统和信息架构上设计和建造出来的。

图2.10表明,企业资产阶段所触及到的建模层范围说明了信息质量越来越被视为信息架构的一个关键组件。一个众所周知的软件开发原则是,越早发现一个问题,纠正它所消耗的成本也越低。同样的原则也被应用到了信息上,用来解决信息架构中的信息质量问题。正如Deming
(1986)
所说,“将质量构建到一个产品中,并贯穿整个生产过程”。这一阶段的另一个方面是关注主数据管理(master data management  MDM),即尝试为关键实体属性的值建立记录系统(systems of record  SOR)或单点事实(single points of truth SPOT),如客户姓名、地址、产品代码等等。

图2.10    第四阶段: 信息作为资产阶段

时间: 2024-10-01 21:23:02

《实体解析与信息质量》- 2.1.7 信息质量的演变的相关文章

《实体解析与信息质量》- 2.1.9 信息质量(IQ)和实体解析(ER)

IQ和ER最直接的联系就是在第一章中所讨论到的实体引用准备流程(ERA2).但是其实IQ和ER在其他方面也有着关联.ER过程一直都是IP创建的一部分,ER流程的有效性将会直接影响IP的质量.在某些情况下,ER过程就是公司将他们的ER和CDI服务提供给他们客户作为产品的IP.更经常的是,ER将作为实体数据(EBDI)集成的一个中间过程,EBDI是在第四章中详细讨论的话题.这将产生一个反馈循环,即在一个ER过程提高数据质量输入将产出高质量信息产品,反过来高质量输入进行连续的处理,而其中的一些处理也可

《实体解析与信息质量》- 2.1.6 IQ与HPC

IQ与HPC 即使在现如今,大规模的数据处理以及虚拟无线内存不再像以前那么昂贵的时代,那些历史遗留下来的极简风格的数据内容,还是不断的困扰着现代信息系统.高性能计算(High-performance computing, HPC)如今已经不再仅仅是研究实验室里的玩物了,在近期兴起的云计算(Cloud computing)以及软件即服务(Software as a service, SaaS)(Knorr, 2008)将HPC带入了几乎任何组织当中. 正如实体解析模型中的许多术语是来自实体-关系模

《实体解析与信息质量》 - 3.1.2 SERF模型

斯坦福实体解析框架(SERF)是由HectorGarcia-Molina领导的研究小组(Benjelloun, Garcia-Molina, Kawai, Larson, Menestrina,Su, Thavisomboon, and Widom, 2006)在斯坦福信息实验室开发出来的.SERF模型中,两个引用的成对解析被抽象成一个匹配方法(match function M),该方法通过操作一对实体引用返回一个布尔类型的真假值,这个值表明该引用对是否是等价的.除了匹配方法M,SERF模型还介

《实体解析与信息质量》 - 3.1.0 概述

本章将要介绍三种ER模型,这些模型分别涵盖了ER流程的不同层面,相互之间进行补充.第一个也是最先被讨论的模型是Fellegi-Sunter模型,该模型讨论的是如何利用直接匹配进行等价引用链接的方法.为处理概率匹配下的等价匹配问题,Fellegi-Sunter模型还提供了一种特殊的算法.我们要讨论的第二个模型是斯坦福实体解析框架(SERF),该模型针对ER的一般处理流程,定义出一系列通用术语,其中包括引用对之间的匹配,整合等操作.不同于Fellegi-Sunter模型,SERF模型并不定义关于匹配

《实体解析与信息质量》 - 2.2.0 总结

信息质量的基本原则,就是为了将组织中的信息的价值最大化.信息的质量水平也直接与信息在其应用中所产生的价值关联.而数据质量则是信息质量的一个重要组成部分,它是根据预定义好的规格及需求,如何对数据进行评估,优化以及维护的实践.作为一种原则,信息质量覆盖了范围很广的知识以及技能的因素.IAIDQ IQ框架乃是由六个领域的内容所组成,其中包括:信息质量策略,政策以及监管:创建可推动信息质量发展的企业文化和环境:理解,量化并使信息质量价值与商业影响互相联系:确保组织信息架构对信息质量的支持:衡量并优化信息

UWP 应用获取各类系统、用户信息 (1) - 设备和系统的基本信息、应用包信息、用户数据账户信息和用户账户信息

应用开发中,开发者时常需要获取一些系统.用户信息用于数据统计遥测.问题反馈.用户识别等功能.本文旨在介绍在 Windows UWP 应用中获取一些常用系统.用户信息的方法.示例项目代码可参见 Github: https://github.com/validvoid/UWP-SystemInfoCollector 由于涉及内容较多,故本文会分为多篇展开.本篇介绍获取设备和系统的基本信息.应用包信息.用户数据账户信息和用户账户信息. 原博客阅读地址:http://validvoid.net/uwp-

全废话SQL Server统计信息(2)——统计信息基础

接上文:http://blog.csdn.net/dba_huangzj/article/details/52835958 我想在大地上画满窗子,让全部习惯黑暗的眼睛都习惯光明--顾城<我是一个任性的孩子> 这一节主要介绍一些理论层面的东西,主要针对SQL Server,为后面的做铺垫.假设从实操层面考虑能够跳过,可是我强烈建议还是要找时间看一下这节.本节的内容例如以下: SQL Server统计信息 列级统计信息 统计信息与运行计划 统计信息与内存分配 开销预估模型 SQL Server统计

全废话SQL Server统计信息(1)——统计信息简介

当心空无一物,它便无边无涯.树在.山在.大地在.岁月在.我在.你还要怎样更好的世界?--张晓风<我在> 为什么要写这个内容? 随着工作经历的积累,越来越感觉到,大量的关系型数据库的性能问题,其根源在于统计信息.这里说的是根源,其实很多时候大家觉得的那些什么索引失效等都只是表象.当然,不能一概而论,还有很多问题如配置问题.设计问题等等,甚至电源也会影响性能. 之所以得出这个结论,因为在常规的开发和部署过程中,一般企业级系统已经大量使用较为高级的磁盘阵列甚至企业级SSD,IO方面的问题已经很少,而

PHP设置头信息,取得返回头信息

php 设置头信息,取得返回头信息 张映 发表于 2011-05-27 分类目录: php 设置请求的头信息,我们可以用header函数,可以用fsockopen,可以用curl等,本文主要讲的是用curl来设置头信息,并取得返回后的头信息. 一,请求方设置自己的头信息,header.php 查看复制打印? <?php function FormatHeader($url, $myIp = null,$xml = null) { // 解悉url $temp = parse_url($url);