尽管信息质量是最近才被归并为一门学科,但是它在作用范围和意义上已经经历了好几个阶段的演变。分别是数据清洗,预防,产品概述和企业资产这几个阶段。
问题认知:数据清洗阶段
九十年代初期,在Inmon (1992),Kimball,
etal. (1998) 等人的共同努力下,来自于数据仓库运动中的大部分概念和当前的实践所形成的信息质量,开始变得普及起来。大多数组织机构都不知道如何处理操作性数据存储的质量不佳和数据之间的不一致性,直到他们开始尝试着将其整合成一个统一的数据存储仓库。
也正是在这个时候,这些组织机构开始意识到他们的数据大部分都是不正确的、不完备的、不一致的被呈现出来,并且经常是质量不佳的。导致这样的原因可能是从数据源头就是这样的一种状况,也可能是我们在尝试把这些数据源头合并在一起的过程中遭到了破坏。Redman(1998)概述了这个问题的严重程度,更为重要的是,这些关于信息质量相关的负面问题将在运营方式和战略层面上影响着他们的组织。
认识到信息质量对于企业运营的负面影响,继而衍生出了一个新的产业,即基于“清洗脏数据”的数据仓库 (English, 1999;Brackett,1996)。正是在这一时期,信息质量开始将问题集中在data
cleaning上面,有时也被称为data hygiene 或 data cleansing。在数据清理阶段,大部分的注意力都集中在使用ETL过程将来自于不同来源的数据进行标准化处理上,这样的处理不仅可以使这些数据被统一的合并到一个数据仓库中,还可以使数据的查询变得更为方便和有意义。正如Lindsey (2008) 所讲述的,一个早期参与产品交易的制造商,发现了在产品数据库中关于颜色beige的拼写差异将影响数据库返回关于查询条件”color equals beige”产生有意义的结果。
图2.7中,横线上方展示了一个企业的概念模型,它着重展示了关于数据模型和数据库模式是如何设计的一个信息结构。横线下方显示了一个信息操作系统的实现模型,包括获取数据源,处理数据,产生输出结果,其中的一个输出就是数据仓库。
图2.7 第一阶段:数据清洗
根源检测:预防阶段
图2.8展示了信息演变的一下个阶段,这一阶段开始利用制造业质量管理的相关原则。它侧重于寻找信息质量问题的根源,并尝试在第一时间内阻止这些数据被存入数据仓库。也正是在预防阶段,组织机构开始意识到简单的标准化处理并没有让他们得到正确的数据,所以他们需要在数据的准确性上投入更高的关注度。
图2.8 第二阶段:根源检测
信息作为产品阶段
信息质量的一个最重要的转折点是,它开始采用成熟的视角去看待信息,即信息是一个信息系统的产物,而不是一个副产品(Huang, Lee, Wang, 1999)。通过对“信息制造业”范式的了解,我们的数据源可以想象成原材料,处理程序可以作为一个产品制作流程,最后的输出也就是最终的产品。一个通用的全面质量管理(total quality managementTQM)原则就可以被应用到信息系统中,也就是全面数据质量管理(total data qualitymanagement TDQM)处理流程(Wang,
Kon, 1998)。
信息质量管理除了采用TQM的一些规则(如产品管理规则)外,信息做为产品还将关注度集中于用户和用户(客户)信息。在信息质量的清洗和预防阶段,注意力被集中在了用来衡量维度的数据条件上,像数据的准确性,完备性和一致性。在数据产品阶段,我们开始站在用户的角度上来理解产品,并将对数据的客观评价与用户对产品价值的评估联系了起来。例如,我们努力的去完善数据表中某一列数据的完整性,将之从80%增加到了90%,这或许是对内部信息质量测量的一个改善措施。但是,如果这一列的数据被导出到一个报表中,而使用该报表的用户并不认为这份报告对达到信息质量的目标有任何的附加价值,那么从产品角度来看,信息质量就没有提升。
图2.9从信息产品角度来看待信息质量,概况了整个信息的生产过程,包括所有MC3利益相关者:管理人员、收集者、托管人和消费者。在这一阶段,数据管控(data government DG)的概念和实践也应运而生了。
图2.9 第三阶段:信息作为产品阶段
信息作为资产
如今信息越来越被视为一种企业的资产,信息质量正在进入一个新的阶段。在这一阶段,信息质量在企业中也从原来的一个被动的角色起到了一定的积极作用。在信息识别、预防和产品阶段,信息质量很大程度上是认为一个被动的角色,信息质量的方法和实践总是从系统和信息架构上设计和建造出来的。
图2.10表明,企业资产阶段所触及到的建模层范围说明了信息质量越来越被视为信息架构的一个关键组件。一个众所周知的软件开发原则是,越早发现一个问题,纠正它所消耗的成本也越低。同样的原则也被应用到了信息上,用来解决信息架构中的信息质量问题。正如Deming
(1986)所说,“将质量构建到一个产品中,并贯穿整个生产过程”。这一阶段的另一个方面是关注主数据管理(master data management MDM),即尝试为关键实体属性的值建立记录系统(systems of record SOR)或单点事实(single points of truth SPOT),如客户姓名、地址、产品代码等等。
图2.10 第四阶段: 信息作为资产阶段