(1)准备。包括需求分析、信息环境分析、任务定义、方法定义、基本配置,以及基于以上工作获得数据清洗方案等。通过需求分析明确信息系统的数据清洗需求,通过信息环境分析明确数据所处的信息环境特点,任务定义要明确具体的数据清洗任务目标,方法定义确定合适的数据清洗方法,基本配置完成数据接口等的配置,要形成完整的数据清洗方案,并整理归档。
(2)检测。包括检测必需的数据预处理,并进行相似重复记录、不完整记录、逻辑错误、异常数据等数据质量问题的检测,对检测结果进行统计,以获得全面的数据质量信息,并将相关信息整理归档。
(3)定位。包括数据质量问题定位、数据追踪分析,并根据检测结果对数据质量进行评估,分析问题数据及修正的业务影响,分析产生数据质量问题的根本原因;进而确定数据质量问题性质及位置,给出数据修正方案,并将相关信息归档。根据定位分析情况,可能需要返回“检测”。
(4)修正。在定位分析的基础上,对检测出的实例层数据质量问题进行修正,具体包括问题数据标记、不可用数据删除、重复记录合并、缺失数据估计与填充等,并对数据修正过程进行数据世系管理。
(5)验证。验证修正后的数据与任务定义的符合性(用到部分检测操作),如果结果与任务目标不符合,则做进一步定位分析与修正,甚至返回“准备”中调整相应准备工作。
图1中的一般性系统框架PDLMV根据用户要求,允许从不同的阶段开始,在不同的阶段停止,以完成不同的数据清洗任务,即PDLMV是可定制的,并且各功能可单独完成。因此,PDLMV是一个柔性的、可扩展的、交互性好的、松耦合的数据清洗框架。同时,由PDLMV完成的数据处理过程,均可视为完整数据清洗过程。
时间: 2024-10-08 21:55:55